Алгоритм розпізнавання капчі
Вважається, що спам-робіт не зможе прочитати картинку і залишить дане поле порожнім або введе який-небудь інший текст. Розбіжність даного поля з реальними символами і буде служити для відмови в дії.
Якщо такий захист не з'ясуєш, то на сайт моментально налетить купа роботів-спамерів, і будуть скрізь де тільки можна залишати посилання на інші сайти. У свою чергу, якщо пошукові системи визначать, що на сайті присутня велика кількість неконтрольовані посилань, то можуть виключати сайт з пошукової видачі. Пошукові системи сприймають позитивно тільки природні посилання, тому захист від спаму потрібна, хоча б сама елементарна.
важкі капчи
Існує велика кількість різноманітних каптч. Для звичайної людини розпізнати капчу не складе великих труднощів. Звичайно, трапляються капчи, де все перекреслено, купа артефактів і ніхто не зможе визначити, що там за символи. Такі каптчі тільки дратують користувачів.
Алгоритм розпізнавання капчі
Я думаю, що все знають програму Adobe FineReader, і напевно все нею користувалися або хоча б бачили, як їй користуються інші. Дана програма сканує текст з паперу та розпізнає його, щоб можна було легко його відредагувати в ворде. Алгоритм розпізнавання шукає графічні елементи, схожі на літери, і порівнює їх. Якщо документ чіткий і букви добре видно, то весь документ легко розпізнається. А якщо документ поганий, темний, пом'ятий і містить "перешкоди", то він не розпізнається або розпізнається так, що замість букв і цифр буде велика кількість знаків "! # $ * ^%. / @ [<>]
". Це буде означати, що документ простіше передрукувати вручну, ніж виправляти весь цей" брєд ".
В даний час є досить багато капч, стійких до автоматичного розпізнавання. Однією з них є капча Яндекс, хоча вже існують алгоритми, які можуть її розпізнати, але поки ще не дуже добре. Команда Яндекса навіть зробила API доступ до капчі, щоб будь-який бажаючий міг встановити їх захист у себе на сайті.
Кращий алгоритм розпізнавання капчі
Поки лабораторія дослідників капч створюють складні і розумні алгоритми, поки дуже просунуті програмісти використовують для розпізнавання капчі нейронні мережі, поки всі вони зайняті і працюють, я вам розповім про один "алгоритм" розпізнавання будь капчи - це сервіс antigate.com. Сервіс працює просто. Коли який-небудь спам-робот натикається на захист у вигляді капчі, то просто отруює її на розпізнавання в antigate.com.
Antigate.com - це великий сервіс з розпізнавання будь капчи. У сервісі зареєстровані мільйони людей по всьому світу, які просто сидять, і вручну розпізнають всі капчи. Спам-роботи передають капчу в antigate.com, він відображає її на екрані користувачів, а вони вводять символи, потім відповідь відправляється назад спам-роботові. Можна спочатку подумати, що це дуже довго, проте, на ділі в середньому для розпізнавання однієї капчи витрачається всього 15 секунд. Ось таким хитрим чином спам-робот може розпізнати практично будь-яку капчу.
В даному сервісі працює велика кількість людей, при цьому поділ працівників по країнах приблизно таке:
- Індія, близько 45%
- В'єтнам, близько 15%
- Пакистан, близько 14%
- Україна, близько 4%
- Росія, близько 3%
- і т.д.
Також на сайті є жива демонстрація як розпізнається каптча. Можна побачити поточну капчу і хто з якої країни її визначає, а також результат розпізнавання, отримані символи. Наприклад, можна побачити капчу від Яндекс, яка розпізнається в середньому за 5-8 секунд.
Інформація, яка використовується в статті
Нічого собі, виходить якою б алгоритм спотворення в капчі не використовувався її все одно розпізнають?
Я хвилин 10-15 сидів спостерігав за демо-режимом, як там розпізнають капчи. І за цей час попалася одна капча, яку не розпізнали. Там було написано простими без спотворення буквами, відрізнявся тільки колір, текст був такий: "Двісті сімдесят вісім тисяч шістсот вісімдесят один". Збільшується шанс, що співробітник з Індії або Пакистану не зможе зрозуміти, що від нього вимагається зробити.
Зараз для надійності краще використовувати графічні капчи, наприклад, показати три картинки, і задати питання, наприклад, на якій картинці біжить людина? Але такий метод буде надійним, якщо створити дуже велику кількість питань і картинок.