Как часто вы сталкиваетесь с тем, что не можете ввести предлагаемую капчу с первого раза? Теперь подумайте, какие трудности могут возникнуть у современного человека, который разговаривает с компьютером «на Вы»? Для него преграда в виде reCAPTCHA становится сильнее, чем для робота.
Однако трудность распознавания капчи человеком является вовсе не самой острой проблемой, как может показаться на первый взгляд. Можно было бы конечно закрыть на это глаза, если бы капча действительно защищала нас от различных автоматизированных систем распознавания. Но это далеко не так!
И я хочу рассказать о средстве, которое решает эти проблемы.
Для того, чтобы создать адекватную защиту для CAPTCHA, необходимо сначала классифицировать способы ее распознавания.
Автоматизированное распознавание капчи
В настоящее время существуют три основных способа автоматизированного распознавания капчи:
1. Использование ошибок в алгоритме защиты
Такой подход направлен на поиск логических ошибок (уязвимостей), позволяющих корректно отправлять форму, без распознавания самой капчи.
Это самый простой способ обхода защиты, но его можно применить в основном, только в простеньких самодельных решениях.
Наиболее популярной ошибкой является передача проверочного кода капчи через поля формы или cookie в открытом виде, в base64, или в md5-хеше без применения соли.
Атакующему не составит труда его получить, даже если ему придется сгенерировать rainbow-таблицу в соответствии с алфавитом капчи (только 5-тизначные буквы русского языка или только 6-тизначные цифры и т.п.) и сделать сопоставление.
Ошибкой так же считается, когда одна и та же капча может быть разгадана более одного раза. Это касается в основном случаев, в которых сгенерированный иднетификатор капчи действителен в течении 5-10 минут, но ограничений на количество проверок у него нет. Тем самым давая возможность атакующему, который уже знает ответ, многократно использовать идентификатор разгаданной капчи. Можно использовать брутфорс с одним и тем же идентификатором капчи, что, в конечном итоге, приведет к желаемому результату.
2. Автоматическое распознавание
Есть три основных пути успешного автоматического распознавания капчи:
I. Использовать готовые средства оптического распознавания (OCR)
Это самый простой подход, не требующий специальных навыков программирования. Такие программы в основном распространяются бесплатно, и их существует достаточно много: ocropus, cuneiform, tesseract, gocr, orcad и другие.
Атакующему нужно только передать картинку капчи такой программе, где на выходе он получит уже распознанный текст. Обычно такие программные продукты имеют множество тонких настроек, позволяющих сделать распознавание более эффективным.
Именно для предотвращения распознавания подобным образом, применяют различные искажения, скручивания, добавление мусора и т.п.
В данном случае процент распознавания может быть совсем небольшим (всего около 10%), но атакующий все равно добьется успеха.
II. Самописные скрипты с применением библиотек GD, ImageMagick и других
Такие скрипты позволяют очистить картинку от мусора, убрать фон, выровнить текст по вертикали, обрезать картинку, оставив только текст, убрать многоцветность, сделать усреднение цвета и т.д. На практике же полноценное распознавание такими скриптами весьма затруднено.
Гораздо более эффективно можно использовать такой скрипт только для предварительной очистки картинки, оставив сам процесс разбора другим способам.
III. Нейронные сети
Наибольший интерес сейчас представляют именно нейронные сети. Для многих это до сих пор похоже на некую магию.
Нейронные сети стали применяться атакующими, с целью автоматического распознавания любых капч.
Они обучают нейронную сеть, которая способна с высокой степенью вероятности распознать даже самую сложную reCAPTCH'у.
Существует множество различных библиотек для разных языков программирования, которые распространяются бесплатно. Одна из таких библиотек, Fast Artificial Neural Network, ранее освещалась в журнале Харкер.
3. Полуавтоматическое распознавание с привлечением дешевых человеческих ресурсов
Есть множество сайтов, таких как antigate.com, rucaptcha.com, captchabot.com и т.д., которые предоставляют своим клиентам выгодную услугу. Они принимают от клиента, в автоматическом режиме, картинку с капчей, и через несколько (10-30) секунд выдают правильный, по их мнению, ответ. Процент удачного распознавания в таком случае очень высокий, порядка 90-95%.
Стоит отметить, что у неподготовленного посетителя этот процент намного ниже.
Стоимость такой услуги составляет примерно $1-3 за правильно распознанные 1000 капчей.
Представьте себе регистрацию 1000 аккаунтов в GMail, которая обойдется всего в 30 рублей!
Вы наверняка спросите, кто будет заниматься ручным распознаванием за такие смешные деньги? Это граждане беднейших стран мира, таких как: Индия, Китай, Вьетнам, Пакистан, Камбоджия и т.д.
Конечно, первое, что приходит на ум создателям капчи, это ввести русский алфавит и полностью исключить английский.
Некоторые удаляют даже цифры. Но как вы понимаете, эти полумеры не способны дать адекватную защиту и уже в ближайшее время владельцы сервисов перенаправляют трафик с таких капч уже только тем, кто умеет читать по-русски.
Другие же стараются усложнить сами капчи, накладывают различные фильтры, искажения, мусор и т.д., думая, что их распознает робот.
Тем самым они усложняют прочтение и распознавание не только людям занятым в этих сервисах и всевозможным скриптам, но и обычным пользователям, чья подготовка оказывается в разы ниже. Все это начинает напоминать современную медицину, которая борется не с причинами заболеваний, а лишь с их симптомами, в результате чего страдает только пациент.
Основными потребителями таких услуг, в основном, являются крупные SEO-компании, и различного рода информационные агрегаторы, которые в автоматическом режиме получают информацию о статистике по поиску ключевых слов, о позициях в поисковой выдаче, саму поисковую выдачу и т.д. Так же их услугами пользуются всевозможные спаммеры, рассылающие сообщения в социальных сетях, регистрирующие в автоматическом режиме учетные записи в почтовых сервисах, форумах и т.п.
По моему мнению, количество распознаваний капч для целей спама, хоть и носит негативный характер, все же является не основным направлением сбыта такой услуги, являясь всего лишь вершиной айсберга. В то время, как сам айсберг, это — ни что иное, как предоставление доступа к консолидированной информации.
Вот вам пример. В нашей стране информацию по почтовым отправлениям (трекингу), находящимся на территории РФ, можно получить только на государственном сайте Почта России. Год назад они добавили капчу в форму отслеживания отправления, что сделало невозможным получение информации по интересующим отправлениям в автоматическом режиме.
А теперь подумайте, откуда берется на этих сайтах информация по отправлениям, но уже без капчи?
Противостоять таким сервисам очень не просто. Этому способствует несколько факторов:
Все без исключения владельцы сервисов перенесли ответственность за загрузку самих картинок на своих клиентов, что, в конечном итоге, не позволят вычислять ip-адреса, их собственные или людей, которые занимаются самим распознаванием, для последующей блокировки.
Если клиент такого сервиса обладает необходимыми знаниями, то он без труда подключит базу прокси-серверов, для обхода возможных блокировок.
Стоит так же отметить, что не было ни одного сервиса, включая reCAPTCHA, способного эффективно противостоять этому.
Простота распознавания пользователем
Лучшим решением для пользователя будет обычный текст на картинке, добившись того, чтобы использование автоматических способов распознавания существенно усложнилось.
На помощь приходит свойство прозрачности форматов изображений gif или png. Нужно сделать так, чтобы при наложении нескольких частей картинки друг на друга, пользователь мог видеть неискаженный текст. Абсолютно любые браузеры поддерживают эту функцию, и даже IE6.
Теперь немного усложним. Для начала создадим несколько прозрачных изображений, по размерам, сходным с оригиналом, и раскидаем попиксельно все исходное изображение на эти, заранее подготовленные слои. При просмотре каждого отдельного слоя невозможно будет точно сказать, что именно изображено на картинке-оригинале. Автоматически собрать воедино такое решение все еще так же легко.
Продолжим усложнять, и сделаем наши слои случайных размеров и из случайных мест исходного изображения.
Теперь вынесем всю информацию о слоях в отдельный css-файл стилей, который будет описывать положение каждого слоя относительно левого верхнего угла исходного изображения. Однако, нам потребуется как-то идентифицировать слои и отличать их друг от друга. Для этого присвоим всем картинкам случайные идентификаторы, и опишем их.
Пример сформированной html-страницы:
<html>
<head>
...
<link rel="stylesheet" href="/captcha/954f836a78de1d510d28ce70fa7b6a4a.css">
...
</head>
<body>
...
<div>
<img id="ppaas-org-666ebb41ddda5d4ed6ca4a305ef26aa3" src="/captcha/5cd345e1be7b576c628f0fea59c771a7.gif" alt="">
<img id="ppaas-org-032a6f45b6215a130227c13d93d9243b" src="/captcha/3bae7faafef0fce7dd606e6076fcb491.gif" alt="">
<img id="ppaas-org-1ab330864b702c47f0cb87f436624f04" src="/captcha/639def2a37662dc524977eb23521470d.gif" alt="">
<img id="ppaas-org-d494ac99950d983bef6a5a396100d69a" src="/captcha/9077a2f8a464dd2b54c929133df5f916.gif" alt="">
<img id="ppaas-org-6316b3bc6d6f366eed48f32f6624b396" src="/captcha/607bcc4f9573d7591bddba72820f4460.gif" alt="">
<img id="ppaas-org-b22da7a9fc15987c5ae825e736591d03" src="/captcha/2e37508352cc31227adfd6ac0dfc5eb0.gif" alt="">
<img id="ppaas-org-048a808a9f2f6a88736c212f83c7a23a" src="/captcha/fbe29561657ab6e6f45969a4f208356d.gif" alt="">
<img id="ppaas-org-9416599dcb5540a858d9ed3eb8aaa6bd" src="/captcha/347c4ce6ff64ba6a6af0374ccea286c8.gif" alt="">
<img id="ppaas-org-d7eb49d155684558196821fdb03c608d" src="/captcha/88d31395d0024972f14125996d335529.gif" alt="">
<img id="ppaas-org-10c40dc3fbf7e1dc6a675cec03261105" src="/captcha/fab44113c2a37510d829114796d0fabb.gif" alt="">
<img id="ppaas-org-69f1bac3c78d00bf529d8aa518c4a7c3" src="/captcha/6cc4c1417c1844892dfdf73491cd99d6.gif" alt="">
<img id="ppaas-org-8041ac42a7f1d9fb21d959dd78fd0512" src="/captcha/3afcef8223bcf0771f5c11c93737534a.gif" alt="">
<img id="ppaas-org-d812b3fd1537b3852e8645979c8ce531" src="/captcha/d47a2fc0fac782964d4f57bae5c8e13f.gif" alt="">
<img id="ppaas-org-7830d62c3f648536431ef1ef8522ff4e" src="/captcha/14bd31e6112391aed8f9b45d3fbadf34.gif" alt="">
<img id="ppaas-org-0bb897e2fde54b338eec83c27f913170" src="/captcha/575834849cb528079840be97d77a31d3.gif" alt="">
<img id="ppaas-org-2d2a15cb75aa8fb806fc4c79c2fb559d" src="/captcha/a2f623a5fdfe46efdb3e5410a7c90b98.gif" alt="">
<img id="ppaas-org-1612c676e0333d9742913572ec60aee7" src="/captcha/aade2c5b4f5cbae1d2df9df3fc7c3dec.gif" alt="">
<img id="ppaas-org-34fa4c5d386ddb7b4cf48ce59b9cdc8d" src="/captcha/ddf335c0c060c87c362fd70f06a705aa.gif" alt="">
<img id="ppaas-org-e9747f4f8219bd8cb22d4592fbdfe677" src="/captcha/7605f696aa21366a9f870dcf26fb3788.gif" alt="">
</div>
...
</body>
</html>
Пример css-файла /captcha/954f836a78de1d510d28ce70fa7b6a4a.css:
#ppaas-org-666ebb41ddda5d4ed6ca4a305ef26aa3 {position: absolute; z-index: 371; margin: 0px 0 0 2px;}
#ppaas-org-032a6f45b6215a130227c13d93d9243b {position: absolute; z-index: 138; margin: 1px 0 0 24px;}
#ppaas-org-1ab330864b702c47f0cb87f436624f04 {position: absolute; z-index: 321; margin: 0px 0 0 80px;}
#ppaas-org-d494ac99950d983bef6a5a396100d69a {position: absolute; z-index: 320; margin: 4px 0 0 3px;}
#ppaas-org-6316b3bc6d6f366eed48f32f6624b396 {position: absolute; z-index: 196; margin: 1px 0 0 74px;}
#ppaas-org-b22da7a9fc15987c5ae825e736591d03 {position: absolute; z-index: 92; margin: 0px 0 0 49px;}
#ppaas-org-048a808a9f2f6a88736c212f83c7a23a {position: absolute; z-index: 501; margin: 6px 0 0 11px;}
#ppaas-org-9416599dcb5540a858d9ed3eb8aaa6bd {position: absolute; z-index: 733; margin: 0px 0 0 7px;}
#ppaas-org-d7eb49d155684558196821fdb03c608d {position: absolute; z-index: 54; margin: 0px 0 0 0px;}
#ppaas-org-10c40dc3fbf7e1dc6a675cec03261105 {position: absolute; z-index: 634; margin: 3px 0 0 13px;}
#ppaas-org-69f1bac3c78d00bf529d8aa518c4a7c3 {position: absolute; z-index: 543; margin: 1px 0 0 38px;}
#ppaas-org-8041ac42a7f1d9fb21d959dd78fd0512 {position: absolute; z-index: 506; margin: 1px 0 0 44px;}
#ppaas-org-d812b3fd1537b3852e8645979c8ce531 {position: absolute; z-index: 67; margin: 0px 0 0 0px;}
#ppaas-org-7830d62c3f648536431ef1ef8522ff4e {position: absolute; z-index: 247; margin: 0px 0 0 20px;}
#ppaas-org-0bb897e2fde54b338eec83c27f913170 {position: absolute; z-index: 350; margin: 3px 0 0 2px;}
#ppaas-org-2d2a15cb75aa8fb806fc4c79c2fb559d {position: absolute; z-index: 149; margin: 3px 0 0 45px;}
#ppaas-org-1612c676e0333d9742913572ec60aee7 {position: absolute; z-index: 429; margin: 1px 0 0 33px;}
#ppaas-org-34fa4c5d386ddb7b4cf48ce59b9cdc8d {position: absolute; z-index: 404; margin: 1px 0 0 2px;}
#ppaas-org-e9747f4f8219bd8cb22d4592fbdfe677 {position: absolute; z-index: 153; margin: 2px 0 0 9px;}
В дальнейшем этот процесс можно усложнять до бесконечности — на одних слоях рисовать лишние пиксели, на последующих слоях их закрашивать и т.д.
Не правда ли, все гениальное – просто?!
Защита от автоматизированного распознавания
Большой ошибкой, по моему мнению, является блокирование ip-адресов, которые многократно вводили значения капчей неверно.
Кто угодно может вводить сколько угодно раз неверные значения, и это ни на что не влияет. Капча как раз и рассчитана на такую фильтрацию.
Нужно блокировать только тех, кто уже указал X правильных значений. И разблокировать, если в течении N минут этот пользователь больше не вводил правильных значений.
Иными словами, ip-адрес посетителя сайта, который был замечен за правильным вводом Х капч за последние N минут, автоматически должен получить отказ.
Стоит так же отметить, что такой подход начинает эффективно работать в случае единого, централизованного сервиса.
Идеальным решением является такое, в котором подобные ограничения не являются обязательными, и имеется возможность изменения этих параметров под свои требования.
Кто-то из вас захочет сделать ограничения в 1 капчу раз в 30 минут, кто-то захочет 5 капч в течение 5 часов, а кто-то и вовсе предпочтет отключить проверку.
В случае использования такого ограничения, становится абсолютно не важно, каким способом происходит автоматизированное распознавание капчи.
Любое из них перестает быть эффективным решением.
Вы наверняка спросите: Что мешает использовать огромное множество прокси-серверов?
Прокси-сервера все берут из свободного доступа, с одинаковых сайтов по всему миру. Последний раз, когда мне приходилось ими пользоваться, реально работающими были около 20000 серверов, где 3000 из них работали постоянно.
Процесс поиска/создания собственных прокси-серверов для большинства затруднителен. В этот список попадают те сервера, которые были взломаны брутфорсом, заражены вирусами и т.д. Это специфическая ниша, реально доступная лишь немногим.
Если бы только один атакующий эксклюзивно владел бы такой базой в 20000 ip-адресов, он бы мог претендовать на распознавание 40000 капчей в течение каждого часа.
Это 960000 капчей в сутки – отличный результат!
А теперь представьте, что все атакующие полностью или частично владеют этой базой. Децентрализованное ее использование приведет к перманентному отказу в обслуживание по всем из них.
Рассмотрим пример. Вы только что использовали один ip-адрес для успешного распознавания капчи любым способом, и теперь ждете около полу часа, чтобы не попасть под блокировку, для совершения повторной попытки. Но оказывается, пока вы ждали, кто-то еще использовал этот адрес для ввода капчи на другом интересующем его ресурсе.
Такая попытка обернется ему отказом, так как этот ip-адрес был уже задействован вами несколькими минутами ранее. Вы, дождавшись, когда истечет время, распознаете капчу второй раз, но получаете отказ.
И так все начинает идти по кругу и до бесконечности.
Protection Privacy as a Service
До этого момента это была лишь теория. Но вы можете посмотреть на то, как это работает на практике – ppaas.org.
Сервис позволяет защищать любую текстовую информацию, такую как адреса email, телефонные номера и т.п.
Спасибо за внимание. Вместе мы сделаем этот мир лучше.
Автор: dmx102