Як очистити текст від будь-яких способів обходу антиплагіату

Попередня ↔ Наступна

Способів обійти перевірку на унікальність тексту, «обійти антиплагіат» - досить багато. У мережі вистачає як описів методології, так і сайтів, які пропонують таку обробку тексту як послугу.

У цій області постійно з'являється щось нове, так як системи перевірки з часом так-сяк вчаться розпізнавати той чи інший спосіб. За моїми відчуттями ті, хто придумує нові хитрощі - йдуть на пару кроків попереду, тому ситуація завжди трохи не на користь тих, хто перевірять ...

Одного разу, розмірковуючи про це, я стану подібний до Архімеда, застрибали навколо комп'ютера вигукуючи «Еврика!». Я не знаю, перший я здогадався до цього чи ні, але спосіб очистити текст від прийомів обходу, причому від будь-яких, навіть тих, які ще не придумані - виявився, як і все ідеальне, простим до межі.

Викладу хід своїх думок.

Всі існуючі на сьогоднішній день способи обійти антиплагіат зводяться до трьох напрямків

Що спільного між усіма трьома напрямками?

А загальне - то, що для читача-людини текст повинен залишитися незмінним. Однак для машини це повинен бути інший текст, за рахунок тих чи інших хитрощів, так чи інакше схованих від погляду читача-людини.

І що це нам дає?

Все просто, правда? Якщо ми візьмемо оброблений текст, хтось один його буде диктувати, а інший знову набере, ми отримаємо чистий текст чи не так? Саме так, тільки це дуже складно.

А що буде, якщо взяти і роздрукувати текст з файлу, в якому використаний той чи інший спосіб обходу? Я багато експериментував, і прийшов до висновку такого висновку: нічого. Тобто, при друку на папір виводиться тільки цікавий для нас текст, без всяких там «невидимих символів» і «захованого тексту». Якщо роздрукувати текст, а потім розпізнати його, ми отримаємо чистий текст! Так, це так, але це як і раніше занадто складно.

А що буде якщо текст не друкувати, а експортувати в PDF прямо з Word, або використовувати для цього стороннє ПО (PDF Creator або The Bullzip PDF Printer). За ідеєю друге - надійніше, але мої експерименти показали, що, принаймні поки - абсолютно все одно як перетворювати текст в PDF, тенденція зберігається - то, що було видимим - залишається видимим, а то, що було захованим - залишається схованим (за рідкісними винятками, про це в кінці). Якщо взяти такий PDF-файл і распознатьего якою-небудь програмою, наприклад ABBY FineReader, то ми отримаємо чистий текст! І так, це вже зовсім не складно.

Чому це працює?

Всі способи обходу засновані на тому, що бачимо ми одне, насправді в текстовому файлі так чи інакше заховано інше. Експорт в PDF і подальше розпізнавання дозволяє нам, фактично, відокремити те, що ми бачимо від решти «таємниці». Ну а перевіривши такий текст в тій чи іншій системі перевірки ми побачимо його істинний результат.

трохи тонкощів

Треба зауважити, що описаний спосіб не дає безпосередньо відповіді на питання, який багатьох цікавить - чи є в перевіряється тексті прийоми обходу? Побічно (але іноді - дуже красномовно) про те, що вони були, може свідчити різний показник унікальності у одного і того ж тексту до розпізнавання і після. Однак, якщо ви бачите, що до розпізнавання і після нього відсоток унікальності залишився колишнім, це не дає гарантії того, що прийомів обходу не було. Можливо, система перевірки просто не знайшла запозичень, які насправді є. Це може відбуватися з різних причин, починаючи з очевидного: тексту, звідки було щось запозичене просто немає у відкритому доступі і базах систем перевірки ... І закінчуючи такими екзотичними випадками, коли текст - ось він, лежить в мережі, знаходиться пошуковими системами, але чому -то геть ігнорується тією чи іншою системою перевірки. Таке теж трапляється, але це вже тема для окремої статті.

Тести, методика

Перевіримо, як це працює. Учинити перевірку я пропоную за допомогою «Антиплагіат», все-таки його використовують найчастіше. Про всяк випадок уточню - набір дій, які будуть проведені над «піддослідними» файлами, не залежить від того, де і як ви їх потім збираєтеся перевіряти.

Далі все досить просто:

Ну а тепер настав час завантажити вийшло в «Антиплагіат»:

Як очистити текст від будь-яких способів обходу антиплагіату

Результат перевірки тестових зразків в системі «Антиплагіат»

На завершення хочу додати, що досить давно - близько року - експериментую з розпізнаванням і подальшою перевіркою текстів. Абсолютно точно можна сказати, що «чесним» текстів ця процедура ніяк не шкодить, викликаючи відхилення від результат вихідного зразка в 1 - 3%. Так само повторюся, що абсолютно все одно який спосіб обходу був використаний - розпізнавання показує нам справжню оцінку тексту.

Ще трохи тонкощів, або що робити, якщо текст погано розпізнається

Так, контролювати якість розпізнавання текстів все-таки потрібно. Всього два рази, але я стикався з тим, що PDF-файли розпізнавалися з купою помилок і якось дивно. Майже впевнений, що це пов'язано з прийомами, що впливають на унікальність. Посудіть самі - якщо ви робите пристойний розмір шрифту, інтервал між літерами, і розпізнаєте текст з PDF, навіть не виводячи його на друк (тобто з точки зору FineReader - це практично «ідеальний текст»), а він розпізнається з помилками ... Що ще могло вплинути, особливо з огляду на той факт, що інші тексти розпізнаються нормально?

Зіткнувшись з проблемою вперше я досить довго з нею провозився, поки не прийшла ідея конвертувати текст ще раз - з PDF в багатосторінковий TIFF, тобто, фактично, в зображення - зв'язку з вихідним текстом і таяться в ньому хитрощах не залишиться ніякої.

Я використовував Ghostscript:

ghostscript -o file.tiff -sDEVICE = tiffgray -r720x720 -g6120x7920 -sCompression = lzw file.pdf

Можна використовувати будь-якої ще конвертер, головне, щоб він дозволяв вставити значення DPI. З ним можна експериментувати, воно повинно бути досить великим - за моїми відчуттями 500 - 700. Варіант, який видався мені оптимальним для Ghostscript вже закладено в рядку вище.

Після цих маніпуляцій все розпізнавалося «на ура». Багатосторінковий TIFF можна відразу «згодовувати» FineReader'у, він з ними відмінно вміє працювати.

замість висновку

З одного боку це здається достатнім - ми знаємо справжню оцінку тексту, чи не все одно, було там щось чи ні? З іншого - не так вже й рідко зустрічаються тексти, в яких з одного боку є прийоми, а з іншого боку - навіть після чищення вони видають пристойний результат.

Просто «Антиплагіат» і так знайде запозичення, без додаткової обробки файлів. Перевірено на собі. А так Ви молодець, провели велику роботу, можливо комусь знадобитися Ваш досвід, але співробітники системи «Антиплагіат» (я не належу до їх числа) теж не сидять на місці, і тим самим розвивають свою систему, в роботі якої часом зустрічаються помилки .

Спасибі на доброму слові. Погоджуся, що «Антиплагіат», безумовно не варто на місці, і вже вміє виявляти досить велика кількість всяких «хитрощів», але я на нього не сподіваюся. Просто тому, що штучне підвищення унікальності тексту - великий бізнес (не вірите - вбийте в пошуковик «підвищення унікальності тексту»). Люди так заробляють гроші, а, як відомо хочеш жити - вмій крутитися.

Зараз все перевіряються тексти в обов'язковому порядку переганяю в PDF і потім розпізнаю. Чому саме в PDF? Тому, що цей формат відповідає двом вимогам. 1 - в нього можна зберегти текст відразу з Word, і 2 - його відразу можна «згодувати» FineReader'у. Саме збереження тексту в PDF, як таке, нічого в ньому не змінює. Важливо текст саме розпізнати - це відсікає видиме від «поднаготную», тобто після цього можна бути впевненим, що перевіряєш саме те, що бачив на екрані.

До того ж, текст проходить через кілька систем, як мінімум це «Антиплагіат» і «ETXT Антиплагіат», буває щось ще. До речі, дві ці системи рідко дають однаковий результат, цікаво, правда? А буває що дають протилежний. Є в мережі тексти, які «Антиплагіат» не бачить просто в упор. Хотів написати навіть статтю про це, але вона вийшла якась вже дуже зла, так що я її не встиг викласти.

З одного боку - так, перестраховка. Так, пардон, геморой. Але всяко простіше, ніж потім статті ретрагіровать 🙂