Средства машинной обработки русского языка | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 4 мая, печатный экземпляр отправим 8 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №4 (399) январь 2022 г.

Дата публикации: 29.01.2022

Статья просмотрена: 71 раз

Библиографическое описание:

Гладышев, В. В. Средства машинной обработки русского языка / В. В. Гладышев. — Текст : непосредственный // Молодой ученый. — 2022. — № 4 (399). — С. 7-9. — URL: https://moluch.ru/archive/399/88425/ (дата обращения: 20.04.2024).



В статье анализируется уровень обеспеченности средствами машинной обработки русского языка.

Ключевые слова: NLP, русский язык, английский язык, машинное обучение.

В настоящее время наблюдается всё более широкое применение технологий машинной обработки естественного языка (natural language processing — NLP). Широкое распространение получили машинный перевод, распознавание и синтез текста (чат-боты) и речи (голосовые ассистенты). Крупными шагами в достижении современного уровня обработки текста и речи стали методы получения векторных представлений слов на основе обучения (Word2vec, FastText и т. д.), появление рекуррентных моделей (RNN, LSTM, GRU), появление механизм внимания Богданова (Bahdanau Attention Mechanism [1]) и, наконец, появление архитектуры трансформер [2] с применением механизма многопоточного самовнимания (multi‑head self‑attention) и большого количества производных моделей на её основе (BART, BERT, GPT, T5 и тд.). Для разработки и применения технологий на основе машинного обучения (при обучении с учителем) решающее значение имеет доступность и качество обучающих датасетов и бенчмарков (SuperGLUE, XTREME, XGLUE, SQuAD и т. д.). В настоящее время это направление исследований в мире динамично развивается. Появление массового конечного продукта обусловлено финансированием исследований со стороны крупных корпораций, большей доступностью вычислительных мощностей, большому вкладу со стороны open-source сообщества.

Одним из факторов, существенно влияющих на применение и доступность современных достижений в области NLP, является многообразие и неоднородность распространения естественных языков. Человечество в своём развитии группировалось под воздействием территориальных, этнических и иных факторов. Доступность различных ресурсов и скорость развития разных сообществ крайне неоднородна. Это обусловило формирование различных языков, которые порой кардинально отличаются по своей форме, семантике, словарному запасу. Неоднородность в цивилизационном развитии обусловила неоднородность распространения различных языков и языковых групп. Количество носителей языка прямо влияет на доступность материалов на каждом языке в том числе на степень доступности материалов в оцифрованном виде.

Такой фактор как качество поддержки различных языков современными средствами NLP в условиях неоднородности распространения и разной степени доступности материалов на разных языках требует дополнительного изучения. Ряд задач, например, выделение именованных сущностей (NER) весьма специфичны для каждой культурной, а следственно и языковой среды и даже для конкретного вида деятельности (юриспруденция, медицина, профессиональная терминология). Также, следствием различий в доступности источников на различных языках становится и различная степень и глубина поддержки средствами на основе машинного обучения.

Общее теоретическое значение имеет также анализ переносимости методов NLP между языками, относящимися к разным языковым группам. Английский язык — язык англо-фризской подгруппы германской группы. Русский язык относится к восточнославянской группе. Английский язык — аналитический, русский — синтетический.

Морфологический анализ, выделение именованных сущностей

Большое различие между морфологическим анализом слов русского и английского языка заключается в том, что это языки разных типологических классов: русский язык синтетический, а английский аналитический. В английском языке грамматические отношения передаются через служебные части речи и порядок слов, в нём мало флексий, а в русском наоборот грамматические отношения выражаются в пределах самого слова (флексии или агглютинация). Таким образом выполнение стемминга (нахождение основы слова) и лемматизации (приведение к нормальной словарной форме) у этих зыков сильно отличаются.

Для морфологического анализа, лемматизации и выделения именованных сущностей на русском языке доступен целый ряд пакетов, однако большая их часть доступна только по коммерческой лицензии. Примерами наиболее востребованных пакетов доступных по свободным лицензиям являются:

pymorphy2 морфологический анализ, лемматизация, склонение слов Использует словарь OpenCorpora. Лицнзия: MIT

mystem (Яндекс) морфологический анализатор. Разработчик: Илья Сегалович

Томита-парсер (Яндекс) извлечение структурированных данных из текста. Извлечение при помощи контекстно-свободных грамматик и словарей ключевых слов. Лицнзия: MPL 2.

– Проект Natasha (Лицензия MIT):

1) библиотека Natasha сегментация, морфологический и синтаксический анализ, лемматизация, извлечение именованных сущностей

2) Yargy парсер взначительной степени вытеснил Томита-парсер

3) Razdel для выделения токенов и предложений на русском языке (более быстрая скорость работы и меньшее количество ошибок по сравнению со SpaCy и NLTK)

4) Slovnet ряд BERT моделей на основе архитектуры трансформер для задач выделения именованных сущностей

iPavlov — DeepPavlov очень большой пакет включающий, в том числе, средства для морфологического и синтаксического анализа, выделения именованных сущностей. Содержит большое количество моделей в том числе на архитектуре трансформер. Образует среду для разработки и отладки и релиза в качестве сервиса диалоговых ассистентов. DeepPavlov создается и поддерживается Лабораторией нейронных сетей и глубокого обучения МФТИ [3]. Лицензия: Apache 2

Получение векторных представлений на основе обучения

Большое влияние на качество при использовании многих методов NLP имеет способ получения векторных представлений слов. В настоящее время широко используются векторно-семантические модели, формируемые на основе алгоритмов обучения. Для английского языка наиболее известными являются: Word2vec и FastText. Для русского языка наиболее известными являются: RusVectores и Navec.

RusVectōrēs — набор семантических моделей для русского языка. Для обучения использовались: Национальный корпус русского языка и дамп русского сегмента Википедии;

Navec семантические модели из состава проекта Natasha.

Разработчики проекта Natasha провели сравнительное тестирование моделей RusVectores и Navec [4] (результат в таблице 1 [4]).

Таблица 1

Качество

Размер модели, МБ

Размер словаря, ×10 3

Navec

0.719

50.6

500

RusVectores

0.638–0.726

220.6–290.7

189–249

Датасеты

Значительное улучшение показателей качества и эффективности при выполнении задач NLP обеспечено применением моделей языка, построенных на архитектуре трансформер. Современные модели на архитектуре трансформер основаны на принципе машинного обучения — обучение с учителем. При использовании принципа обучения с учителем получение положительного результата невозможно без достаточного объёма качественных (нормализованных, очищенных и размеченных) данных. В настоящее время доступно несколько достаточных по объёму корпусов текста на русском языке. Удобной «точкой доступа» является агрегатор ссылок на корпуса русского текста и датасеты для обучения моделей выделения именованных сущностей это Corus [5] из состава проект Natasha. В настоящее время через Corus доступно более 30 корпусов и датасетов в том числе: OpenCorpora (открытый корпус), Omnia Russica (TaigaCommon Crawl, Wikipedia и Aranea), дамп русского сегмента Википедии. На сайте ruscorpora.ru доступен Национальный корпус русского языка.

Определено наличие средств машинной обработки для русского языка в категориях:

– средства морфологической обработки;

– средства выделения именованных сущностей;

– средства получения векторно-семантических моделей;

– корпуса текстов на русском языке (в форме для машинной обработки) и русскоязычные размеченные датасеты.

Перечисленные средства создают базу для решения задач машинной обработки русского языка. Однако, значительная часть современных задач NLP решается с применением моделей языка на базе архитектуры трансформер. Необходимо дополнительно исследовать наличие и доступность таких моделей для русского языка.

Литература:

  1. Dzmitry, Bahdanau Neural Machine Translation by Jointly Learning to Align and Translate / Bahdanau Dzmitry. — Текст: электронный // arXiv: [сайт]. — URL: https://arxiv.org/pdf/1409.0473.pdf (дата обращения: 28.01.2022).
  2. Attention Is All You Need / Vaswani Ashish. — Текст: электронный // arXiv: [сайт]. — URL: https://arxiv.org/pdf/1706.03762.pdf (дата обращения: 28.01.2022).
  3. DEEPPAVLOV. — Текст: электронный // deeppavlov.ai: [сайт]. — URL: https://deeppavlov.ai/ (дата обращения: 28.01.2022).
  4. Александр, Кукушкин Navec — компактные эмбеддинги для русского языка / Кукушкин Александр. — Текст: электронный // natasha.github.io: [сайт]. — URL: https://natasha.github.io/navec/ (дата обращения: 28.01.2022).
  5. natasha / corus. — Текст: электронный // github.com/natasha: [сайт]. — URL: https://github.com/natasha/corus (дата обращения: 28.01.2022).
Основные термины (генерируются автоматически): NLP, русский язык, английский язык, машинная обработка, BERT, MIT, машинное обучение, доступность материалов, модель, морфологический анализ.


Похожие статьи

IT-технологии обучения и их применение в различных сферах

Статья рассматривает концепцию машинного обучения и сферы, где машинное обучение можно эффективно внедрить [1]. Особое внимание уделено примерам интеграции машинного обучения в информационные системы и сервисы. На основе анализа внедрения, его...

Машинное обучение и язык программирования Python

Машинное обучение — основной способ демонстрации науки о данных широкой общественности. В машинном обучении вычислительные и алгоритмические возможности науки о данных соединяются со статистическим образом мышления, в результате возникает...

Искусственный интеллект и большие данные | Статья в журнале...

Машинное обучение — это процесс создания машин или программ, которые могут получать доступ к данным, применять к ним алгоритмы, получать ценную информацию и затем применять полученные знания к другим сценариям или новым наборам данных.

Анализ тональности текста для прогнозирования цен на...

Анализ тональности относится к использованию обработки естественного языка, текстового анализа и вычислительной лингвистики для идентификации и извлечения субъективной информации в исходных материалах. Вообще говоря, анализ тональности направлен на...

Возможность первичной обработки текста посредством...

Ключевые слова: NLP, морфологический анализ, NLTK, нейронные сети.

Рассмотрим же возможность проведения анализа текстовой информации при помощи морфологического

В английском языке несколько иное представление о грамматической основе предложения.

Обзор систем машинного перевода | Статья в журнале...

Ключевые слова: машинный перевод, обработка естественного языка, компьютерная

В данной статье будут рассмотрены виды машинного перевода, самые популярные системы

Возможность работы над системами, используя силы русского NLP-сообщества (научное...

Роль больших данных в глубинном обучении | Статья в журнале...

Машинное обучение может построить необходимую модель автоматически на основе некоторых обучающих данных.

Машинное обучение — один из разделов искусственного интеллекта, который связан с

На русский язык его перевели как «искусственный интеллект»...

Мультимедиапрограммы в обучении лексике английского языка...

Обучение иностранным языкам в средней общеобразовательной школе предполагает

Обучение лексике иностранного языка является одной из самых актуальных тем в

Лучше начинать с существительного. Анализ содержания данных программ и возможностей их...

Похожие статьи

IT-технологии обучения и их применение в различных сферах

Статья рассматривает концепцию машинного обучения и сферы, где машинное обучение можно эффективно внедрить [1]. Особое внимание уделено примерам интеграции машинного обучения в информационные системы и сервисы. На основе анализа внедрения, его...

Машинное обучение и язык программирования Python

Машинное обучение — основной способ демонстрации науки о данных широкой общественности. В машинном обучении вычислительные и алгоритмические возможности науки о данных соединяются со статистическим образом мышления, в результате возникает...

Искусственный интеллект и большие данные | Статья в журнале...

Машинное обучение — это процесс создания машин или программ, которые могут получать доступ к данным, применять к ним алгоритмы, получать ценную информацию и затем применять полученные знания к другим сценариям или новым наборам данных.

Анализ тональности текста для прогнозирования цен на...

Анализ тональности относится к использованию обработки естественного языка, текстового анализа и вычислительной лингвистики для идентификации и извлечения субъективной информации в исходных материалах. Вообще говоря, анализ тональности направлен на...

Возможность первичной обработки текста посредством...

Ключевые слова: NLP, морфологический анализ, NLTK, нейронные сети.

Рассмотрим же возможность проведения анализа текстовой информации при помощи морфологического

В английском языке несколько иное представление о грамматической основе предложения.

Обзор систем машинного перевода | Статья в журнале...

Ключевые слова: машинный перевод, обработка естественного языка, компьютерная

В данной статье будут рассмотрены виды машинного перевода, самые популярные системы

Возможность работы над системами, используя силы русского NLP-сообщества (научное...

Роль больших данных в глубинном обучении | Статья в журнале...

Машинное обучение может построить необходимую модель автоматически на основе некоторых обучающих данных.

Машинное обучение — один из разделов искусственного интеллекта, который связан с

На русский язык его перевели как «искусственный интеллект»...

Мультимедиапрограммы в обучении лексике английского языка...

Обучение иностранным языкам в средней общеобразовательной школе предполагает

Обучение лексике иностранного языка является одной из самых актуальных тем в

Лучше начинать с существительного. Анализ содержания данных программ и возможностей их...

Задать вопрос