Обработка естественного языка | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Библиографическое описание:

Обработка естественного языка / Я. П. Горожанкин, А. О. Иванов, А. А. Миронов [и др.]. — Текст : непосредственный // Молодой ученый. — 2019. — № 26 (264). — С. 28-30. — URL: https://moluch.ru/archive/264/61166/ (дата обращения: 25.04.2024).



В статье описывается процессы обработки естественного языка, виды шкал определения тональности, подходы к определению тональности текста и методы оценки качества тональности текста.

Ключевые слова: обработки естественного языка, анализ тональности.

Обработка естественного языка — направление машинного обучения и компьютерной лингвистики, направленное на изучение проблемы синтеза естественных языков и компьютерного анализа. Основными направлениями обработки естественного языка являются: распознавание речи, генерация естественного языка и понимание естественного языка.

В обработке естественного языка применяется предобработка текста в формат удобный для дальнейшей работы. К примеру:

Перевод всех букв к верхнему или нижнему регистру;

Удаление цифр;

Удаление пунктуации;

Удаление стоп-слов;

Стемминг — процесс выделения основы слова. Альтернатива для русского языка: лемматизация — приведение слова к одинаковой форме:

– для существительных — именительный падеж, единственное число;

– для прилагательных — именительный падеж, единственное число, мужской род;

– для глаголов, причастий, деепричастий — глагол в инфинитиве несовершенного вида.

Векторное представление слов — для документа создается вектор размерности словаря, в него записывается насколько часто слово встречается в документе.

Анализ тональности

Анализ тональности — класс методов анализа текстовых данных, предназначенный для определения эмоциональной окраски текста и в нахождении эмоциональной оценки авторов по отношению к объектам, речь о которых идет в тексте.

Виды шкал для определения тональности

В области анализа тональности текста, как правило, использую одну из следующих шкал разделения текстов по тональности:

1) Бинарная шкала

2) Два класса оценок: позитивная и негативная. Минус данного подхода в том, что не во всех случаях удается однозначно определить к какому классу относиться документ: текст может содержать признаки позитивной и негативной оценки одновременно.

3) Многополосная шкала

4) Расширение задачи классификации документов от оценки “положительный или отрицательны” в сторону трех и четырех бальной системе оценки.

5) Системы шкалирования

6) Словам ставится в соответствие числа по какой-то шкале, например, от

7) —10 до 10 (от резко негативного до резко положительного). Текст анализируется инструментами обработки естественного языка, затем найденные термины изучаются с целью понимания значения этих терминов.

Подходы копределению тональности текстов

В проблеме анализа тональности существует два основных подхода: лексический подход и подход машинного обучения. В лексическом подходе определение тональности основано на анализе отдельных слов, используются эмоциональные словари [1]: в тексте ищутся эмоциональные лексические элементы из словаря, веса их тональности уже подсчитаны, и применяется некоторая агрегированная весовая функция для определения тональности текста на основе всех элементов.

Задача извлечения тональности текста с помощью машинного обучения рассматривается как общая проблема классификации текста [2] — деятельность по маркировке текстов на естественном языке тематическими категориями из предопределенного набора, в ней применяются заранее размеченные по тональности корпусы данных, на которых происходит обучение модели, которая в дальнейшем используется для классификации.

Формальная постановка задачи классификации текста:

Имеется множество классов

Имеется множество документов

Неизвестная целевая функция

Необходимо построить классификатор , максимально близкий к .

У каждого подхода есть свои преимущества и недостатки. Лексическому подходу не нужны размеченные по тональности корпусы данных и процедура обучения, следовательно, решения, принятые классификатором, легко объяснимы. Однако необходимы огромные лингвистические ресурсы, такие как эмоциональный словарь. Так же термины словаря должны иметь вес, адекватный предметной области документа. Например, слово «большой» по отношению к размеру мобильного телефона является отрицательной характеристикой, но положительной по отношению к объему памяти жёсткого диска.

При машинном обучении словарь не требуется, и на практике методы демонстрируют высокую точность классификации. Но классификатор, обученный для одной области, в большинстве случаев не работает в других.

Оценка качества анализа тональностей

Для того чтобы понять, насколько хорошо построенный алгоритм работает с данными, необходима численная метрика его качества. Для каждого класса отдельно составляется таблица классификации.

1) TP — истинно-положительное решение;

2) TN — истинно-отрицательное решение;

3) FP — ложноположительное решение;

4) FN — ложноотрицательное решение.

  1. Полнота (Recall)
  2. Полнота системы — это доля найденных классификатором документов, принадлежащих классу относительно всех документов этого класса в тестовой выборке.

  1. Точность (Precision)
  2. Точность системы в пределах класса — это доля документов, действительно принадлежащих данному классу относительно всех документов, которые система отнесла к этому классу.

  1. F-мера (F-measure)

F-мера представляет собой гармоническое среднее между точностью и полнотой. Она стремится к нулю, если точность или полнота стремится к нулю.

  1. Cross-validation
  2. Для оценки качества классификации используется метод кросс-валидации (cross-validation) — данные делятся на k частей. Затем на k-1 частях производится обучение модели, а оставшаяся часть используется для тестирования. Процедура повторяется k раз и в итоге каждая из k частей данных используется для тестирования.

Литература:

  1. Pang, B., Lee, L. Opinion Mining and Sentiment Analysis // Foundations and Trends® in Information Retrieval. Vol. 2. 2008. P. 1–135.
  2. Sebastiani F. (2002), Machine learning in automated text categorization, ACM Computing Surveys, Vol. 34, P. 1–47.
Основные термины (генерируются автоматически): естественный язык, машинное обучение, анализ тональности, лексический подход, вид шкал, единственное число, именительный падеж, корпус данных, обучение модели, тональность текста.


Ключевые слова

анализ тональности, обработки естественного языка

Похожие статьи

Распознавание сарказма в задаче определения тональности...

Ключевые слова:классификация текста, машинное обучение, обработка естественного языка, тональность текста. Анализ мнений — это тип обработки естественного языка для отслеживания настроения общественности о конкретном продукте.

Обзор систем анализа тональности текста на русском языке

Анализ тональности текста позволяет извлекать из текста эмоционально окрашенную лексику и

Список и описание популярных систем анализа тональности текста на русском языке.

Результат выдается в виде двух оценок – оценка позитивной составляющей текста (по шкале...

Сравнение методов оценки тональности текста

Ключевые слова:классификация текста, машинное обучение, обработка естественного языка, тональность текста. Анализ мнений — это тип обработки естественного языка для отслеживания настроения общественности о конкретном продукте.

Анализ тональности высказываний в Twitter | Статья в журнале...

В данной работе рассматривается применение методов машинного обучения с учителем к анализу тональности русскоязычных высказываний в социальной сети Twitter. Подробно разбираются методы предварительной обработки текста...

Исследование методов сентимент-анализа русскоязычных текстов

Ключевые слова: анализ тональности текста, сентимент анализ, обработка естественного языка, компьютерная лингвистика, анализ текстов. Сентимент-анализ (англ. sentiment analysis) — выявление тональности комментария при помощи методов NLP...

слово, тональность текста, естественный язык, машинное...

Исследование методов сентимент-анализа русскоязычных текстов. слово, тональность текста, естественный язык, машинное обучение, текст, русский язык, анализ, словарь, конечный результат, компьютерная лингвистика. Некоторые особенности структуры слога в языке.

Анализ тональности отзывов пользователей в мета-области...

В статье рассмотрена задача анализа тональности текста на примере отзывов о фильмах. Рассмотрена проблематика подхода, основанного на словарях, создан свой собственный словарь сентиментов и для него проведены исследования на корпусе данных.

Методы выделения ключевых слов в контексте электронных...

Ключевые слова:классификация текста, машинное обучение, обработка естественного языка, тональность текста.

Существующие подходы анализа тональности можно сгруппировать в четыре основные категории: определение ключевых слов, лексическое сходство...

Анализ тональности текста для прогнозирования цен на...

Анализ тональности относится к использованию обработки естественного языка, текстового анализа и вычислительной лингвистики для

Вообще говоря, анализ тональности направлен на определение отношения говорящего или писателя к какой-то теме или на определение...

Похожие статьи

Распознавание сарказма в задаче определения тональности...

Ключевые слова:классификация текста, машинное обучение, обработка естественного языка, тональность текста. Анализ мнений — это тип обработки естественного языка для отслеживания настроения общественности о конкретном продукте.

Обзор систем анализа тональности текста на русском языке

Анализ тональности текста позволяет извлекать из текста эмоционально окрашенную лексику и

Список и описание популярных систем анализа тональности текста на русском языке.

Результат выдается в виде двух оценок – оценка позитивной составляющей текста (по шкале...

Сравнение методов оценки тональности текста

Ключевые слова:классификация текста, машинное обучение, обработка естественного языка, тональность текста. Анализ мнений — это тип обработки естественного языка для отслеживания настроения общественности о конкретном продукте.

Анализ тональности высказываний в Twitter | Статья в журнале...

В данной работе рассматривается применение методов машинного обучения с учителем к анализу тональности русскоязычных высказываний в социальной сети Twitter. Подробно разбираются методы предварительной обработки текста...

Исследование методов сентимент-анализа русскоязычных текстов

Ключевые слова: анализ тональности текста, сентимент анализ, обработка естественного языка, компьютерная лингвистика, анализ текстов. Сентимент-анализ (англ. sentiment analysis) — выявление тональности комментария при помощи методов NLP...

слово, тональность текста, естественный язык, машинное...

Исследование методов сентимент-анализа русскоязычных текстов. слово, тональность текста, естественный язык, машинное обучение, текст, русский язык, анализ, словарь, конечный результат, компьютерная лингвистика. Некоторые особенности структуры слога в языке.

Анализ тональности отзывов пользователей в мета-области...

В статье рассмотрена задача анализа тональности текста на примере отзывов о фильмах. Рассмотрена проблематика подхода, основанного на словарях, создан свой собственный словарь сентиментов и для него проведены исследования на корпусе данных.

Методы выделения ключевых слов в контексте электронных...

Ключевые слова:классификация текста, машинное обучение, обработка естественного языка, тональность текста.

Существующие подходы анализа тональности можно сгруппировать в четыре основные категории: определение ключевых слов, лексическое сходство...

Анализ тональности текста для прогнозирования цен на...

Анализ тональности относится к использованию обработки естественного языка, текстового анализа и вычислительной лингвистики для

Вообще говоря, анализ тональности направлен на определение отношения говорящего или писателя к какой-то теме или на определение...

Задать вопрос