Автоматическая регистрация представляет собой автоматизированный ввод и подтверждение необходимых регистрационных данных на определенных сайтах.
Несомненно — в настоящее время автоматическая регистрация зачастую используется часто в незаконных целях, таких как рассылка спама сразу с большого числа почтовых ящиков и/или электронных мессенджеров, «черная» SEO оптимизация, засорение поисковой выдачи, спам в социальных сетях, и т. д.
В то же время использование автоматической регистрации может быть оправдано и полезно во множестве случаев.
К таким случаям можно отнести:
– Продвижение сайта в поисковых системах;
– Задачи автоматизированного поиска с помощью специализированных программ («аватар») на заданных сайтах.
В настоящее время существует множество сайтов и приложений, предлагающих услуги автоматической регистрации. В основном эти предложения касаются регистрации в различных каталогах, то есть для SEO продвижения.
Опишем основные приложения подобного типа.
Программа Addsite является продуктом российских разработчиков и предоставляет следующие возможности:
Ручная и автоматическая регистрация в поисковых каталогах;
Обход и распознавание Capcha. Большинство картинок программа распознает сама, информацию с тех которые не удалось распознать — пользователь может ввести самостоятельно и продолжить регистрацию в ручном или автоматическом режиме;
Поиск и добавление новых каталогов;
Отчет о регистрации и т. д. [2]
Сервис autoreg.ru предлагает автоматическую регистрацию в 3178 поисковых каталогах. Доступны как бесплатный вариант регистрации, так и вариант за дополнительную плату. Для работы на сайте требуется обязательная регистрация. Механизмы автоматической регистрации, используемые сайтом — не разглашаются. [4]
Программа Catsniper является одной из самых популярных программ для регистрации в каталогах.
На данный момент CATSNIPER поддерживает следующие типы каталогов: CNCat, Made-cat, FlashCat, ScannerLink. Программа умеет распознавать CAPTCHA всех этих каталогов [3].
К существенной проблеме, замедляющей развитие методик автоматической регистрации, можно отнести наличие на подавляющем большинстве современных сайтов так называемой CAPTCHA, то есть компьютерного теста, используемого для того, чтобы определить, кем является пользователь системы: человеком или компьютером [5]. В большинстве случаев этот тест представляет собой надпись, обработанную специальным образом с целью невозможности распознавания компьютерными программами. В последнее время также получили распространение следующие виды CAPTCHA:
– Необходимость поставить отметку в определенном поле на экране;
– Решение математического примера;
– Необходимость собрать «паззл» из нескольких элементов на экране;
– Вопрос пользователю (например «Автор книги про Тома Сойера?»);
– Виды CAPTCHA, использующие необходимость выбора нужной из нескольких картинок на экране. Данный способ является одним из самых совершенных и простых для понимания человеком на настоящий момент, но все-таки может быть обойден с использованием метода баз данных, описанного ниже;
– Программный способ (внедрение на сайт невидимого для человека поля, которое будет заполнено машиной при автоматической регистрации).
Способов распознавания некоторых типов CAPTCHA на данный момент пока не существует.
Для защиты от автоматической регистрации в социальных сетях также часто используется необходимость подтверждения номера телефона.
Но проблема с распознаванием рисованной CAPTCHA на настоящий момент частично решена. Мы говорим «частично» по той причине, что не все современные виды CAPTCHA могут быть распознаны описанным ниже способом.
Решение состоит в привлечении людей к распознаванию CAPTCHA. Ресурсы, подобные сайту «rucaptcha.com» [1] позволяют с помощью специализированного API организовать отправку картинок на сайт, а на выходе получать распознанные людьми символьные последовательности. Причем скорость распознавания является вполне приемлемой для большинства автоматизированных информационных систем (от 3 до 30 секунд).
Также существуют следующие возможности распознавания CAPCHA компьютерными системами.
Использование уязвимостей в программах. В этом случае квалифицированный программист может узнать код CAPTCHA, не прибегая к распознаванию. Это связано с тем, что в некоторых случаях на странице присутствуют прямые или косвенные сведения, позволяющие узнать код, например ссылка на картинку с CAPTCHA содержит в себе число для распознавания. На настоящий момент данный способ практически неактуален, поскольку большинство систем содержат в себе хорошую защиту от подобных попыток.
Угадывание. Данный способ используется в том случае, если вариантов CAPTCHA достаточно мало (обычно менее 1000). Программа последовательно вводит возможные варианты до тех пор, пока нужный вариант не будет угадан. Данный способ также неактуален, по той причине что большинство современных CAPCHA содержат очень большое количество возможных вариантов.
Использование баз данных. Этот вариант используется в том случае, если варианты CAPTCHA заранее подготавливаются человеком, а не генерируются машиной. В этом случае использование баз данных позволяет угадать необходимые варианты.
Автоматическое распознавание. В этом варианте используется либо самостоятельный модуль распознавания, либо варианты с использованием специализированных OCR систем, таких как Finereader. В основном вариант применим к так называемой «слабой» CAPTCHA. Если при генерации CAPTCHA машиной используются неэффективные способы сделать рисунок нераспознаваемым для машины, то автоматическое распознавание может позволить распознать ее.
Распознавание чужими руками. Этот способ является не совсем способом «распознавания», скорее это один из видов мошенничества. В данном случае для распознавания используются сайты с высокой посещаемостью. При посещении сайта, при выполнении определенных действий — пользователю выдается CAPTCHA, взятая с других сайтов, валидацию на которых необходимо пройти программе. Пользователь вводит правильный ответ, после чего результат посылается на сервер и вводится в нужное поле. [5]
Также существенной проблемой, встающей перед разработчиком системы автоматизированной регистрации — является система защиты от автоматических регистраций по IP-адресу, при котором одна регистрация допускается лишь с одного IP-адреса. Решением данной проблемы может быть использование базы прокси-серверов, либо использование динамического веб-адреса с последующим переподключением.
Таким образом, при разработке системы автоматизированной регистрации на определенных сайтах основным фактором, определяющим успешность разработки подобной системы является используемый способ защиты от автоматических регистраций на целевом сайте. Следует отметить, что при использовании определенных типов защиты — автоматическая регистрация является невозможной.
Поэтому при разработке системы автоматизированной регистрации на определенных сайтах необходимо провести следующие шаги:
- Определить целевые сайты для регистрации системы.
- Выявить способы защиты от автоматической регистрации на целевых сайтах. Следует отметить, что на большом количестве сайтов способы защиты от автоматических регистраций отсутствуют, и необходимо лишь подтверждение электронной почты и/или номера телефона. В то же время важной является проблема возможности подключения модуля поиска впоследствии к сайту — как раз на этом этапе многие разработчики и предлагают ввод CAPTCHA. Но данная задача является актуальной скорее для разработчиков активного поискового модуля системы;
- Выявить способы обхода системы автоматической регистрации на сайте и реализовать их.
В случае с использованием рисованной CAPTCHA — с помощью API сайтов, подобных «rucaptcha.com» [1] может быть организовано автоматическое распознавание CAPTCHA.
В случае использования остальных видов CAPTCHA может потребоваться дополнительное обследование этих сайтов с целью реализации системы обхода CAPTCHA. В частности, CAPTCHA вида «проставьте знак в поле» — может обходиться с помощью считывания изображения с экрана, поскольку обычно поле для ввода символа имеет типизированный вид (в наиболее популярных на данный момент системах).
В случае, если организовать распознавание CAPTCHA автоматизированными методами не представляется возможным — система должна иметь возможность работы в полуавтоматическом режиме. В этом случае все поля на сайте автоматически заполняются программой, после чего на этапе распознавания CAPTCHA управление передается пользователю, который вводит необходимый ответ в нужном поле.
Несомненно, зачастую применение автоматизированных систем регистрации на сайтах служит незаконным целям. В то же самое время, как отмечалось выше — их использование может быть полезным во многих задачах, в частности при поиске информации на «закрытых» сайтах, для просмотра документов на которых необходима регистрация.
Литература:
- Сервис распознавания капч https://rucaptcha.com/
- AddSite — программа для регистрации сайта в каталогах. http://www.promo-soft.ru/addsite.html
- Программа для автоматической регистрации сайта в каталогах http://www.catsniper.ru/
- Сервис автоматической раскрутки сайта autoreg.ru
- Статья «Капча» в свободной энциклопедии Wikipedia. https://ru.wikipedia.org/wiki/Капча