Обзор методов и средств автоматизированного сбора информации с новостных лент

Романова Виктория Олеговна

Настоящая работа посвящена обзору источников данных с новостных лент в сети Интернет, программных средств хранения неструктурированных текстовых данных, лингвистических и статистических методов представления текстовой информации.

Сегодня Интернет теснит привычные медиа: все меньше людей читают газеты или смотрят телевизионные выпуски новостей. А в интернете те же люди сидят все больше и больше. Если прибавить к этому стремительные темпы развития технологий беспроводного Интернета, то мы получаем реальную перспективу массового распространения интернет-ориентированного потребителя новостной информации.

Трафик интернет-новостей за последние три года вырос в полтора раза, об этом свидетельствуют данные сервиса «Яндекс.Новости». По результатам исследования, ежедневно в сети публикуется около 47 тысяч информационных сообщений. Согласно исследованию, проведенному группой экспертов «Яндекса» в октябре 2014 г., на данный момент уже «каждый четвертый пользователь Сети в стране хотя бы раз в месяц читает новости в электронном виде».

Новостная лента представляет собой формат данных, используемый для доставки пользователям часто обновляемой информации. Лента состоит из некоторого ограниченного числа статей, а также из служебной информации, например, наименование поставщика ленты, адрес домашней странички. При появлении новых сообщений они добавляются в ленту, вытесняя старые статьи. Обычно в ленте бывает не больше 10–20 статей.

В РФ одним из самых популярных новостных сайтов, которые подают интернет-пользователям самые свежие новости политики, науки, спорта, культуры и техники является Lenta.ru.

Lenta.ru — одно из ведущих российских новостных интернет-изданий, основанное в 1999 году Антоном Носиком при содействии Фонда эффективной политики. Работает круглосуточно, освещая мировые и внутрироссийские новости.

По данным Alexa.com на март 2014 года сайт Lenta.ru занимает 16 место по популярности в России. В 2010 году Гарвардский университет провел исследование русской блогосферы, которое признало «Ленту.ру» наиболее часто цитируемым в русскоязычных блогах источником новостей. Согласно исследованию компании comScore, проведенному в апреле 2013 года, сайт занял 5 место по посещаемости среди европейских новостных сайтов.

Не теряет своей популярности и РИА Новости. Этот новостной сайт выкладывает новости России и других мировых стран, позволяя своим читателям всегда быть в курсе происходящего. Интернет-сайт агентства стабильно входит в десятку самых популярных электронных СМИ Европы. Ежедневно на сайте выходит более 50 новостных лент. Подобно сайту Lenta.ru каждая новость содержит заголовок, сам текст новости, дату публикации, имя автора, фотоматериалы. Пользователь может прокомментировать статью, оценить ее, ознакомиться с количеством просмотров, поделиться ссылкой на новость в таких социальных сетях, как Facebook, ВКонтакте, Одноклассники, LiveJournal, Twitter, МойМир.

Как отмечалось выше, ежедневно в сети публикуется около 47 тысяч информационных сообщений. В ответ на возникшие потребности на ИТ-рынке появился целый ряд решений, обозначаемых общим термином «Big Data», которые предлагают качественно новый подход к хранению и использованию постоянно растущих объемов информации.

Big Data — это серия подходов, инструментов и методов обработки структурированных, слабо структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.

Среди основных характеристик решений класса Big Data можно выделить такие как:

– больший объем — способность хранить массивы данных огромных размеров (от сотен Тб до десятков Пб);

– большое многообразие — возможность хранения в рамках одного массива всех видов структурированной и неструктурированной информации: таблицы баз данных, текстовые документы, видео- и аудио-информация, данные измерительных приборов, логи приложений и многое другое;

– высокое быстродействие — скорость загрузки и обработки информации в массиве близкая к режиму реального времени.

На рынке есть достаточно много мощных, легко масштабируемых решений для организации хранилищ данных и работы с ними. Среди них можно выделить Greenplum, Netezza и Teradata, которые предлагают эффективную производительность приобработке информацииблагодаря использованию массивно-параллельной архитектуры.

Технологии Big Data предусматривают высокую степень распределения данных на уровне хранения. Распределенная система хранения не только обеспечивает отказоустойчивость, но и позволяет распараллелить обработку данных, что крайне важно при работе с объёмами Big Data.

Ключевой технологией хранения в мире Big Data является Hadoop. Hadoop представляет собой программную среду с открытым исходным кодом, которая обеспечивает распределённое хранение огромных объёмов данных (в масштабе петабайт) на недорогих компьютерах. С помощью Hadoop-приложения Big Data взаимодействует с узлами хранения без непосредственного обращения к физическим серверам.

Hadoop состоит из двух основных компонент:

Распределенная и в высокой степени масштабируемая файловая система HDFS (Hadoop Distributed File System).
Подсистема MapReduce на уровне приложений, которая обеспечивает обработку запросов в пакетном режиме.

HDFS построена по принципу однократной записи и многократного чтения (write-once-read-many) и имеет блочную структуру, в каждом блоке которой можно хранить файл или часть файла.

В общем виде, все методы обработки текстовой информации могут быть разделены на две группы, по используемым в их реализации подходам: статистическому и лингвистическому.

Лингвистический подход предполагает анализ различных единиц языка, начиная от морфем и заканчивая словами и предложениями и определение связей между ними для решения конкретных задач. Из-за этого лингвистический подход зависит от конкретного языка.

Лингвистический подход при решении задачи автоматической обработки текста предполагает последовательный анализ языка как иерархической системы. Выделяют 4 последовательных этапа анализа текста: лексический, морфологический, синтаксический и семантический. К этим базовым уровням анализа также может быть добавлен один над-уровень: прагматический анализ.

Если лингвистический подход к обработке текстовой информации предполагает разработку подробной лингвистической модели для решения конкретных задач, то статистический подход предполагает, что обработка больших объёмов текстовых данных с помощью компьютеров позволит извлечь из них определённые сведения, применимые для решения задачи автоматической обработки текста.

Статистический подход к решению задач автоматической обработки текста подразумевает использование некоторой математической модели текста, применимой для решения конкретной задачи. Под математической моделью понимается некоторый объект-заместитель объекта-оригинала, обеспечивающий изучение некоторых свойств оригинала. Таким образом, модель является своего рода эквивалентом объекта, отражающим в математической форме его важнейшие свойства — законы, которым он подчиняется и связи, присущие составляющим его частям.

В основе статистического подхода лежит использование в качестве основных единиц текста слов: на их основе рассматриваются различные числовые характеристики, такие как распределение слов по тексту, количество повторений слов и т. д., а также статистические закономерности между этими характеристиками, позволяющие решать конкретные задачи. Достоинством статистического подхода является его независимость от конкретного языка. На практике чаще всего применяются комбинации двух этих подходов.

Освещая проблему выявления агрессии в сообщениях новостных лент, следует учитывать, что в СМИ именно через слово воздействуют на массовое сознание. Заголовкистатей, привлекая внимание читателя, одновременно воздействуют на читателя и настраивают на отрицательное отношение к тем фактам, о которых идёт речь. Что касается агрессивно написанных статей, то такие материалы больше всех привлекают внимание читателей, воздействуют на эмоциональную сферу человека и настраивают на решительное действие.

В современныхгазетныхтекстах, помимо проявления речевой агрессии, можно также наблюдать случаи описания физической агрессии. Такие статьи, в основном, информируют о совершении разных насильственных действий, когда идет детальное описание агрессивных актов, начиная от побоев и заканчивая совершением убийства. В языковом сознании русских понятие речевой агрессии в СМИ почти всегда связано с понятием власти.

Одним из способов выражения агрессии является немотивированное, затрудняющее понимание текста использование иноязычной лексики. Например, «Барак Обама на этой неделе имел большое европейское турне — Брюссель, Гаага, Рим, саммит Евросоюза, НАТО, визит к папе Римскому, что, кстати, интересно, потому что Обама сам позиционирует себя как inbeliever — неверующий».

В последнее время в СМИ активно используются слова, являющиеся неологизмами среди жаргонных слов. Например, «Двадцать пять лет американцы «троллили» Россию».

В процессе исследования существующих методов и средств автоматизированного сбора информации с новостных лент, была рассмотрена одна из первостепенных задач — задача автоматизации сбора и хранения текстовой информации.

Литература:

http://www.onlinegazeta.info/portal/LENTA.RU-oficialniy_sait_internet-izdanie_lenta-ru-novosti-na-lente-redakciya.htm (дата обращения: 26.04.16)
http://www.rg.ru/2014/10/22/novosti-site-anons.html (дата обращения: 26.04.2016)
http://www.kakprosto.ru/kak-846340-samye-populyarnye-novostnye-sayty#ixzz471ZHyLQr (дата обращения: 26.04.2016)
Новая газета. — 2014. — № 24 от 3.04.2014

Молодой учёный

Обзор методов и средств автоматизированного сбора информации с новостных лент

Обзор методов и средств автоматизированного сбора информации с новостных лент

Молодой учёный