Обработка естественного языка | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 28 декабря, печатный экземпляр отправим 1 января.

Опубликовать статью в журнале

Библиографическое описание:

Обработка естественного языка / Я. П. Горожанкин, А. О. Иванов, А. А. Миронов [и др.]. — Текст : непосредственный // Молодой ученый. — 2019. — № 26 (264). — С. 28-30. — URL: https://moluch.ru/archive/264/61166/ (дата обращения: 16.12.2024).



В статье описывается процессы обработки естественного языка, виды шкал определения тональности, подходы к определению тональности текста и методы оценки качества тональности текста.

Ключевые слова: обработки естественного языка, анализ тональности.

Обработка естественного языка — направление машинного обучения и компьютерной лингвистики, направленное на изучение проблемы синтеза естественных языков и компьютерного анализа. Основными направлениями обработки естественного языка являются: распознавание речи, генерация естественного языка и понимание естественного языка.

В обработке естественного языка применяется предобработка текста в формат удобный для дальнейшей работы. К примеру:

Перевод всех букв к верхнему или нижнему регистру;

Удаление цифр;

Удаление пунктуации;

Удаление стоп-слов;

Стемминг — процесс выделения основы слова. Альтернатива для русского языка: лемматизация — приведение слова к одинаковой форме:

– для существительных — именительный падеж, единственное число;

– для прилагательных — именительный падеж, единственное число, мужской род;

– для глаголов, причастий, деепричастий — глагол в инфинитиве несовершенного вида.

Векторное представление слов — для документа создается вектор размерности словаря, в него записывается насколько часто слово встречается в документе.

Анализ тональности

Анализ тональности — класс методов анализа текстовых данных, предназначенный для определения эмоциональной окраски текста и в нахождении эмоциональной оценки авторов по отношению к объектам, речь о которых идет в тексте.

Виды шкал для определения тональности

В области анализа тональности текста, как правило, использую одну из следующих шкал разделения текстов по тональности:

1) Бинарная шкала

2) Два класса оценок: позитивная и негативная. Минус данного подхода в том, что не во всех случаях удается однозначно определить к какому классу относиться документ: текст может содержать признаки позитивной и негативной оценки одновременно.

3) Многополосная шкала

4) Расширение задачи классификации документов от оценки “положительный или отрицательны” в сторону трех и четырех бальной системе оценки.

5) Системы шкалирования

6) Словам ставится в соответствие числа по какой-то шкале, например, от

7) —10 до 10 (от резко негативного до резко положительного). Текст анализируется инструментами обработки естественного языка, затем найденные термины изучаются с целью понимания значения этих терминов.

Подходы копределению тональности текстов

В проблеме анализа тональности существует два основных подхода: лексический подход и подход машинного обучения. В лексическом подходе определение тональности основано на анализе отдельных слов, используются эмоциональные словари [1]: в тексте ищутся эмоциональные лексические элементы из словаря, веса их тональности уже подсчитаны, и применяется некоторая агрегированная весовая функция для определения тональности текста на основе всех элементов.

Задача извлечения тональности текста с помощью машинного обучения рассматривается как общая проблема классификации текста [2] — деятельность по маркировке текстов на естественном языке тематическими категориями из предопределенного набора, в ней применяются заранее размеченные по тональности корпусы данных, на которых происходит обучение модели, которая в дальнейшем используется для классификации.

Формальная постановка задачи классификации текста:

Имеется множество классов

Имеется множество документов

Неизвестная целевая функция

Необходимо построить классификатор , максимально близкий к .

У каждого подхода есть свои преимущества и недостатки. Лексическому подходу не нужны размеченные по тональности корпусы данных и процедура обучения, следовательно, решения, принятые классификатором, легко объяснимы. Однако необходимы огромные лингвистические ресурсы, такие как эмоциональный словарь. Так же термины словаря должны иметь вес, адекватный предметной области документа. Например, слово «большой» по отношению к размеру мобильного телефона является отрицательной характеристикой, но положительной по отношению к объему памяти жёсткого диска.

При машинном обучении словарь не требуется, и на практике методы демонстрируют высокую точность классификации. Но классификатор, обученный для одной области, в большинстве случаев не работает в других.

Оценка качества анализа тональностей

Для того чтобы понять, насколько хорошо построенный алгоритм работает с данными, необходима численная метрика его качества. Для каждого класса отдельно составляется таблица классификации.

1) TP — истинно-положительное решение;

2) TN — истинно-отрицательное решение;

3) FP — ложноположительное решение;

4) FN — ложноотрицательное решение.

  1. Полнота (Recall)
  2. Полнота системы — это доля найденных классификатором документов, принадлежащих классу относительно всех документов этого класса в тестовой выборке.

  1. Точность (Precision)
  2. Точность системы в пределах класса — это доля документов, действительно принадлежащих данному классу относительно всех документов, которые система отнесла к этому классу.

  1. F-мера (F-measure)

F-мера представляет собой гармоническое среднее между точностью и полнотой. Она стремится к нулю, если точность или полнота стремится к нулю.

  1. Cross-validation
  2. Для оценки качества классификации используется метод кросс-валидации (cross-validation) — данные делятся на k частей. Затем на k-1 частях производится обучение модели, а оставшаяся часть используется для тестирования. Процедура повторяется k раз и в итоге каждая из k частей данных используется для тестирования.

Литература:

  1. Pang, B., Lee, L. Opinion Mining and Sentiment Analysis // Foundations and Trends® in Information Retrieval. Vol. 2. 2008. P. 1–135.
  2. Sebastiani F. (2002), Machine learning in automated text categorization, ACM Computing Surveys, Vol. 34, P. 1–47.
Основные термины (генерируются автоматически): естественный язык, машинное обучение, анализ тональности, лексический подход, вид шкал, единственное число, именительный падеж, корпус данных, обучение модели, тональность текста.


Ключевые слова

анализ тональности, обработки естественного языка

Похожие статьи

Овладение операциями морфемного анализа в курсе русского языка начальной школы

В статье рассматриваются основные положения овладения операциями морфемного анализа в курсе русского языка начальной школы, анализируются основные положения подходов к методике формирования операций морфемного анализа.

Сравнение методов оценки тональности текста

Сравнение как объект лингвистического исследования

В данной статье реализован анализ конструкции сравнения в качестве объекта лингвистического исследования. Детально изучены различные точки зрения отечественных лингвистов на предмет исследования сравнения в художественном тексте. Также определены рол...

Применение форм оценки и оценочных инструментов на уроках русского языка и литературы

В статье рассматриваются такие понятия, как критериальное, формативное и суммативное оценивание. Даны несколько способов применения ИКТ для оценки на уроках русского языка и литературы.

Предпереводческий анализ как один из этапов перевода

Статья посвящена рассмотрению значения предпереводческого анализа и его особенностей, с целью включения его в процесс перевода для обеспечения углубленного понимания исходного текста и улучшения качества результата перевода.

Адаптация сложности текстов и текстовых заданий

В статье рассматривается понятие «адаптация текста», виды и модели адаптации текста и ее функции, адаптация сложности текстовых заданий при изучении и преподавании английского языка.

Исследование традиционных методов обучения для изучения формальных языков

При изучении новой темы, в том числе и формальных языков, возникает вопрос: «С чего начать?» В данной статье исследуются традиционные для России методы обучения. Проанализировав их, были выбраны наилучшие для изучения формальных языков.

Проблемы перевода метафоры с английского языка на русский

Статья посвящена особенностям перевода англоязычных метафорических выражений на русский язык. В ней проводится анализ проблем возможных трудностей, возникающих при переводе метафор, и освещаются различные подходы и методы их передачи на другом языке.

К проблеме анализа современных педагогических технологий обучения русскому языку в школе

В статье проводится анализ существующих педагогических технологий, их классификация и выявление ключевых особенностей каждой из них.

Современные методологии в изучении иностранного языка

В данной статье рассматриваются особенности развития современных методов в обучении иностранному языку. Проведен перекрестный и сравнительный анализ влияния методик и различных факторов на развитие лингвистики и образования.

Похожие статьи

Овладение операциями морфемного анализа в курсе русского языка начальной школы

В статье рассматриваются основные положения овладения операциями морфемного анализа в курсе русского языка начальной школы, анализируются основные положения подходов к методике формирования операций морфемного анализа.

Сравнение методов оценки тональности текста

Сравнение как объект лингвистического исследования

В данной статье реализован анализ конструкции сравнения в качестве объекта лингвистического исследования. Детально изучены различные точки зрения отечественных лингвистов на предмет исследования сравнения в художественном тексте. Также определены рол...

Применение форм оценки и оценочных инструментов на уроках русского языка и литературы

В статье рассматриваются такие понятия, как критериальное, формативное и суммативное оценивание. Даны несколько способов применения ИКТ для оценки на уроках русского языка и литературы.

Предпереводческий анализ как один из этапов перевода

Статья посвящена рассмотрению значения предпереводческого анализа и его особенностей, с целью включения его в процесс перевода для обеспечения углубленного понимания исходного текста и улучшения качества результата перевода.

Адаптация сложности текстов и текстовых заданий

В статье рассматривается понятие «адаптация текста», виды и модели адаптации текста и ее функции, адаптация сложности текстовых заданий при изучении и преподавании английского языка.

Исследование традиционных методов обучения для изучения формальных языков

При изучении новой темы, в том числе и формальных языков, возникает вопрос: «С чего начать?» В данной статье исследуются традиционные для России методы обучения. Проанализировав их, были выбраны наилучшие для изучения формальных языков.

Проблемы перевода метафоры с английского языка на русский

Статья посвящена особенностям перевода англоязычных метафорических выражений на русский язык. В ней проводится анализ проблем возможных трудностей, возникающих при переводе метафор, и освещаются различные подходы и методы их передачи на другом языке.

К проблеме анализа современных педагогических технологий обучения русскому языку в школе

В статье проводится анализ существующих педагогических технологий, их классификация и выявление ключевых особенностей каждой из них.

Современные методологии в изучении иностранного языка

В данной статье рассматриваются особенности развития современных методов в обучении иностранному языку. Проведен перекрестный и сравнительный анализ влияния методик и различных факторов на развитие лингвистики и образования.

Задать вопрос