Обзор методов обнаружения поискового спама с применением контент-анализа

Кучукова Наталья Николаевна

Введение. Постановка задачи

В течение непродолжительного времени информационно-компьютерная сеть стала одной из основных составляющих культуры, образования и, что немаловажно, коммерческой жизни. Сегодня миллионы людей выполняют множество финансовых операций, начиная с общебытовых (оплата товара, использование пластиковых карт для ускорения финансовых операций), и заканчивая взаимодействием на уровне мировых банков с использованием веб-ресурсов. В связи с фантастическим количеством и разнообразием информации в сети, для пользователей встает вопрос быстрого и качественного поиска необходимой информации. Немалую роль в этом играют поисковые системы. Учитывая введенный запрос, поисковая система определяет соответствующие страницы в Internet и представляет пользователям ссылки на такие страницы, как правило, группами по 10-20 ссылок. После этого человек имеет возможность нажать на одну из ссылок, чтобы посетить указанные страницы.

В последние несколько лет такая модель получения соответствующей информации посредством поисковых систем стала очень распространенной и востребованной. Поэтому рейтинг интернет-сайтов, а вместе с тем и их коммерческая составляющая, во многом зависит от позиции, занимаемой ими в результатах поиска по пользовательскому запросу. В связи с этим операторы веб-сайтов ищут методы, благодаря которым они смогут увеличить свой рейтинг в поисковых системах. Некоторые разработчики используют методы качественной оптимизации, такие как улучшение качества и структуры содержания страниц, которые будут полезны большому числу пользователей. Однако некоторые недобросовестные операторы действуют иными, менее этическими, способами манипулирования рейтинговой системы поисковиков. Одни включают в себя создание посторонних страниц, ссылающихся на целевую. Иные же используют перенасыщенность содержания страницы ключевыми словами в надежде, что такие страницы будут высоко ранжироваться. Такая практика искусственного повышения рейтинга получила название поискового спама (web-спама).

Проблема Web-спама состоит в том, он подрывает репутацию доверенных источников. Люди склонны относиться с результатам поиска как к беспристрастным и достоверным, в результате с доверием пользуются предоставляемыми ссылками. Web-спамеры рассчитывают на это доверие и на то, что люди снова обратятся к поисковым службам для удовлетворения своих информационных потребностей. На обработку страниц поисковыми системами тратятся значительные ресурсы. Без применения методов обнаружения спам-страниц поисковые системы могут затратить до седьмой части своих ресурсов, что значительно сократит качество их работы (это признают M.Henzinger и другие. [3]). По мере того, как поисковые системы позволяют поисковому спаму влиять на качество своей работы, вполне законные сайты теряют значительную долю репутации и влияния.

В сообществе поисковых служб полагают, что Web-спам будет становиться все более распространенным и изощренным. Это мнение подтверждают статистические данные. Статистические отчеты показывают, что в 2002 г. поисковые серверы индексировали от 6 до 8 процентов страниц спама, в 2003-2004 гг. спам составил уже 15-18%. В другом исследовании обнаружено, что примерно в девяти процентах результатов поиска среди первых 10 выданных ссылок содержалась, по крайней мере, одна ссылка на спам, а в 68% случаев ссылки на спам содержались среди первых 200 ссылок. [2] Недавние исследования [4] также выявили, что 80% пользователей поисковых систем просматривают лишь первые 3 партии результатов. Таким образом, если ссылка на спам-сайт выдается поисковиками среди первых, то количество его посещений увеличивается в разы, тем самым препятствуют нахождению нужной информации.

Поэтому перед поисковыми системами остро стоит вопрос об обнаружении поискового спама. Создание эффективных методов их выявления - сложная проблема. Учитывая размеры сети Internet, он них потребуется и полная автоматизация процесса.

В данной статье будут рассмотрены различные методы для обнаружения поискового спама. Каждый метод хорошо подходит для распараллеливания, работает за время, пропорциональное размеру страниц и позволяет выявлять спам-страницы на основе контент-анализа.

Применение контент-анализа для выявления спам-текстов.

В данном разделе будут рассмотрены эвристики, в основе которых лежит анализ содержания web-страницы. На основе анализа данных эвристик можно сделать заключения о том, имеем ли мы дело со спамом или нет.

Количество слов в странице

Одним из популярных способов создания спам-страниц является перенасыщение наполнения web-страницы «ключевыми словами». Текст страницы искусственно расширяется путем добавления большого количества популярных слов, не имеющих отношения к основному содержанию текста. В данном случае спамеры делают ставку на то, что при смешивании произвольных слов с искомым наполнением страницы она будет соответствовать сразу нескольким запросам. Тем самым увеличивается вероятность того, что большему количеству пользователей будет возвращена именно эта страница в качестве результата на их поисковый запрос.

Количество слов в заголовке страницы

Распространенной практикой среди поисковых систем при выборе страниц, отвечающих пользовательскому запросу, является анализ появления ключевых слов в заголовке страницы. Некоторые поисковые системы присваивают больший рейтинг таким страницам. В связи с этим недобросовестные создатели сайтов пользуются этой особенностью, увеличивая количество ключевых слов в заголовках. Данная эвристика является более эффективным показателем спама, нежели анализ количества слов всей страницы.

Средняя длина слов

Относительно редкой практикой по сравнению с предыдущими пунктами является использование «составных» слов в спам-страницах. При такой технике несколько слов (от двух до четырех) объединяются в одну композицию без пробелов (например, «freedownload»). Данный тип спама ориентирован на определенный тип запросов, когда пользователь при наборе не учитывает расстояние между словами или пропускает разделительные знаки.

Количество ссылок в тексте страницы

Поисковые системы довольно часто при отборе страниц анализируют текст внутренних ссылок. Основная идея такого метода состоит в том, что если ссылка содержит ключевое слово пользовательского запроса, то страница, на которую она указывает, содержит информацию, удовлетворяющую данному запросу, и возвращает ее пользователю. Некоторые поисковые системы используют эту характеристику как основную при ранжировании сайтов. Поэтому довольно часто применяется такой вид спама, когда страница является просто каталогом ссылок на другие недоброкачественные страницы.

1.5 Доля видимого содержимого

Для того чтобы обеспечить более релевантные результаты своим пользователям, некоторые поисковые системы анализируют информацию определенных html-тегов страницы, которые не отображаются браузером. Такими элементами, например, являются комментарии в теле кода страницы, атрибут alt или мета-теги в заголовках. Такие элементы помогают определиться поисковым машинам с природой страницы или изображения. Очень часто такие «подсказки» становятся мишенью для недобросовестных разработчиков при создании спам-страниц.

Анализ естественности текста на основе наличия и разнообразия стоп-слов

Довольно часто при создании спам страниц учитывается эвристика предельно допустимого количества ключевых слов в тексте. Однако данные слова могут быть случайным образом сгенерированы на странице из словарей. Поэтому часто проводят анализ распределения словарных слов в тексте. Как правило, в спам-страницах наблюдается определенная равномерность распределения слов из словарей, иная, нежели частота встречаемости этих слов в естественном языке [5]. Довольно часто, чтобы обойти метрику, основанную на доли стоп-слов в тексте, спамеры включают вставку небольшого количества стоп-слов через определенные промежутки по всему объему текста. Единственный способ идентифицировать такие страницы как спам – проанализировать разнообразие стоп-слов.

Использование объединенных эвристик для обнаружения поискового спама

В предыдущем разделе был представлен ряд эвристик, эффективных при анализе страниц на наличие спама. Однако при отдельном использовании каждого из них может возникнуть ситуация, при которой страницы, не содержащие спама, могут быть помечены как спам. Поэтому наиболее эффективным оказывается метод объединенного анализа нескольких характеристик, применяя статистические методы, с целью повышения точности обнаружения недоброкачественных web-страниц.

В данном случае создается модель классификатора, которая на основе объединения нескольких параметров сможет определить страницу в одну из категорий – спам, не спам. Общее конструирование классификатора включает в себя его обучение анализу необходимых параметров и модернизацию системы анализа в ходе работы. Наиболее перспективными являются методики создания классификаторов на основе нейронных сетей и метода опорных векторов.

Заключение

Подводя итог проведенному обзору, можно утверждать, что для эффективной работы поисковых систем необходимо реализовать машинно-обучаемые методы анализа структур web-страницы с целью обнаружения статистических совпадений со спам-структурой на основе комбинированного выявленных эвристик.

Литература:

1. A.Ntoulas, M. Najork, M.Manasse, D.Fetterly. Detecting Spam Web Pages through Content Analysis.

2. С.Кузнецов. Что такое Web-спам? «Открытые системы», № 11, 2005

3. M. Henzinger, R. Motwani and C. Silverstein. Challenges in Web Search Engines. SIGIR Forum 36(2), 2002.
4. B. Jansen and A. Spink. An Analysis of Web Documents Retrieved and Viewed. In International Conference on Internet Computing, June 2003.
5. C. Manning and H. Sch¨utze. Foundations of Statistical Natural Language Processing. The MIT Press, 1999, Cambridge, Massachusetts.

Молодой учёный

Обзор методов обнаружения поискового спама с применением контент-анализа

Обзор методов обнаружения поискового спама с применением контент-анализа

Молодой учёный