Библиографическое описание:

Усталов Д. А. Каталоги лингвистических ресурсов: состояние и перспективы // Молодой ученый. — 2012. — №12. — С. 148-152.

В статье дано определение каталога лингвистических ресурсов, описан структурный состав и качественные характеристики. Проведён сравнительный обзор существующих каталогов. Сформулированы гипотезы о перспективах развития каталогов лингвистических ресурсов как тематических сообществ. Введение

Такие информационные ресурсы, как словари и тезаурусы, корпусы текстов и банки данных, имеют огромную ценность в области обработки естественного языка. Это обусловлено спецификой фундаментальных и прикладных задач компьютерной лингвистики, нередко решаемых при помощи разнообразных статистических методов.

Часто задачи обработки текста сводятся к задачам машинного обучения: формируется вектор признаков, генерируется обучающая выборка, по выборке обучается классификатор, а полученный классификатор уже используется в составе какого-либо программного обеспечения.

Эффективность таких методов достаточно высока, что подчёркивается фразой Фредерика Йелинека [1], известного учёного в области теории вычислительных систем: «Каждый раз, когда лингвист покидает коллектив, качество распознавания речи возрастает»1.

Несмотря на ценность и очевидную как научную, так и коммерческую значимость исследований и разработок в области обработки естественного языка, сегодня наблюдаются следующие проблемы:

  • отсутствие доступного качественного инструментария2 и вспомогательных утилит для обработки текста, для распознавания речи, и т. д.;

  • нехватка доступных информационных ресурсов: машиночитаемых словарей, тезаурусов, размеченных корпусов текстов, банков данных;

  • дефицит экспертов, а также тематических мероприятий и образовательных программ в регионах.

Данные проблемы делают особенно актуальной задачу сбора, систематизации и распространения сведений о доступных средствах и ресурсах для обработки русского языка. Каталог лингвистических ресурсов

Под каталогом лингвистических ресурсов понимается систематизированная совокупность электронных материалов, направленная на удовлетворение информационных потребностей пользователей, исследователей и разработчиков в области компьютерной лингвистики. Структурный состав

Каталог лингвистических ресурсов не имеет строгие требований к тематике материалов, однако возможно условно выделить следующие категории:

  1. программное обеспечение («ПО») — инструментарий для обработки естественного языка;

  2. ресурсы («Р») — словари, тезаурусы, корпусы текстов, банки данных, и т. д.;

  3. методы («М») — модели, способы, алгоритмы, подходы к решению фундаментальных и прикладных задач компьютерной лингвистики;

  4. мероприятия («МП») — тематические конференции, семинары, гранты, стипендии;

  5. образование («О») — высшие образовательные учреждения, стажировки;

  6. персоналии («П») — эксперты в области обработки естественного языка: представители предприятий и учреждений, учёные, прочие исследователи;

  7. организации («ОР») — предприятия и учреждения, деятельность которых связана с обработкой естественного языка;

  8. ссылки («С») — перечни ссылок на тематические ресурсы и сообщества.

Может оказаться, что некоторые категории оказываются заполнены значительно больше, чем другие. В таком случае целесообразно добавить дополнительную классификацию по направлениям внутри области обработки естественного языка: автоматическая обработка текста, распознавание и синтез речи, информационный поиск, и т. д. Качественные характеристики

Данные характеристики необходимо сформулировать с точки зрения всех категорий пользователей каталогов лингвистических ресурсов:

  • представители коммерческих компаний и бюджетных учреждений, желающие улучшить потребительские характеристики своих продуктов или услуг при помощи лингвистических технологий: каталог поможет снизить затраты на НИОКР благодаря детальному перечню доступных технологических решений, их особенностей и производителей;

  • исследователи, стремящиеся опубликовать свои разработки и имеющие необходимость сравнить полученные научные результаты с достижениями других исследователей и коллективов: каталог поможет оперативнее определить вектор развития науки и техники в данной области;

  • разработчики программного обеспечения: опубликованные в каталоге сведения о специфике разработки и функционирования инструментов обработки естественного языка позволят избежать лишних ошибок при проектировании и технической реализации собственного программного обеспечения;

  • студенты и аспиранты, интересующимся информационными технологиями: каталог позволит быстрее разобраться в специфике обработки естественного языка, получить хорошие результаты выполнения курсовых и дипломных работ, а также продолжить работу в данной области.

Таким образом, можно выделить пять качественных характеристик, позволяющих оценить и сравнить существующие каталоги:

  1. системность («С») — структурное представление электронных материалов в унифицированной форме;

  2. доступность («Д») — каталог бесплатно доступен любому пользователю Интернета на условиях какой-либо свободной лицензии;

  3. открытость («О») — возможность любого человека самостоятельно внести изменения в содержимое ресурса и участвовать в организационных процессах каталога;

  4. коммуникативность («К») — наличие сетевого сообщества: группы компетентных людей, связанных общей целью развития и популяризации каталога;

  5. актуальность («А») — состояние активности обновления каталога на текущий момент времени.

Существующие каталоги

При составлении обзора рассматривались популярные российские каталоги лингвистических ресурсов, найденные при помощи поисковых машинах «Яндекс» и Google. «Портал знаний по компьютерной лингвистике»

Портал знаний по компьютерной лингвистике призван обеспечить систематизацию и интеграцию знаний и информационных ресурсов по компьютерной лингвистике в единое информационное пространство, а также содержательный доступ к интегрированным знаниям и ресурсам [2].

На портале представлены знания об основных разделах компьютерной лингвистики, о ее предмете и объектах исследования, используемых в ней моделях и методах, разработанных в рамках компьютерной лингвистики технологиях, системах, программных продуктах и лингвистических ресурсах (словарях, корпусах и лингвистических баз данных), а также информация об ученых, сообществах, организациях, включенных в процесс исследования по компьютерной лингвистики и о выполняемых проектах в этой области.

Все изменения в содержимом портала осуществляются администрацией под руководством представителей Сибирского отделения РАН. «Речевые технологии»

Портал «Речевые технологии» посвящён вопросам исследований в области распознавания и синтеза речи, разработки средств речевого управления и голосовой идентификации [3].

На портале имеется каталог программного обеспечения и банков данных для пользователя и разработчика инструментов работы с речью, тематический форум, а также лента новостей. Сведения об информационных ресурсах добавляются и корректируются администрацией портала. «Лингвистика в России: ресурсы для исследователей»

Научно-образовательный портал «Лингвистика в России. Ресурсы для исследователей» создан в феврале 2006 года по инициативе Научно-исследовательского Вычислительного Центра МГУ им. Ломоносова и ГОУ ВПО «Казанский государственный университет им. В. И. Ульянова-Ленина» [4].

Задачей портала «Лингвистика в России» является создание инфраструктуры для поддержки сообществ исследователей и преподавателей для информирования и открытого обсуждения научных и образовательных задач российской лингвистики, интеграция лингвистического сообщества РФ.

На портале собран каталог ссылок на различные российские проекты в области компьютерной лингвистики. Развитие каталога осуществляется администрацией портала под руководством представителей КГУ им В. И. Ульянова-Ленина. «Каталог лингвистических программ и ресурсов в Cети»

Данный каталог включает в себя описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных сегодня в глобальной сети Интернет [5].

Упор при составлении каталога делался на бесплатные программы, доступные для загрузки. Однако также описаны некоторые on-line и коммерческие версии программ. Тематически каталог разбит на следующие разделы: программы анализа и лингвистической обработки текстов; программы преобразования текстов; психолингвистические программы; генераторы текстов и "говорящие" программы; системы обработки естественного языка; коллекции ресурсов; словари и тезаурусы. «mathlingvo»

mathlingvo — проект кафедры информационных систем в искусстве и гуманитарных науках СПбГУ, посвящённый математической и компьютерной лингвистике в России [6].

Представляет собой коллективный блог под руководством представителей кафедры, в котором уделено внимание перечням тематических конференций, периодических изданий, вакансиям. Также является представительством различных общественных инициатив, таких как OpenCorpora [7]. «NLPub»

NLPub — каталог лингвистических ресурсов, организованный в виде Вики-проекта, доступного для редактирования любому желающему [8]. Содержит пять категорий — инструменты (обработка текста, распознавание речи, утилиты), ресурсы (словари, тезаурусы, корпусы текстов, банки данных), а также сведения о тематических мероприятиях и доступных образовательных программах. Сравнение каталогов

Сравнение каталогов будет проводиться путём изучения их содержимого на предмет наличия в них характеристик, описанных выше. Внимание уделяется двум аспектам: структурному составу и качественным характеристикам.

В табл. 1 представлено сравнение каталогов лингвистических ресурсов по структурному составу, в табл. 2 приведены результаты сравнения каталогов лингвистических ресурсов на основании приведённых выше качественных характеристик.

Таблица 1

Сравнение каталогов лингвистических ресурсов по структурному составу

Название каталога

ПО

Р

М

МП

О

П

ОР

С

Σ

1

Портал знаний по компьютерной лингвистике

1

1

1

0

0

1

1

1

6

2

Речевые технологии

1

1

0

0

0

0

0

1

3

3

Лингвистика в России: ресурсы для исследователей

0

0

1

1

1

1

0

1

5

4

Каталог лингвистических ресурсов и программ в Сети

1

1

0

0

0

0

0

1

3

5

mathlingvo

0

0

0

1

1

1

0

1

4

6

NLPub

1

1

1

1

1

0

0

0

5


Таблица 2

Сравнение каталогов лингвистических ресурсов по качественным характеристикам

Название каталога

С

Д

О

К

А

Σ

1

Портал знаний по компьютерной лингвистике

1

1

0

0

1

3

2

Речевые технологии

0

1

0

1

1

3

3

Лингвистика в России: ресурсы для исследователей

0

1

0

0

1

2

4

Каталог лингвистических ресурсов и программ в Сети

0

1

0

0

0

1

5

mathlingvo

0

1

1

1

1

4

6

NLPub

1

1

1

1

1

5

Анализ результатов

Наиболее полным и систематизированным источником является каталог «Портал знаний по компьютерной лингвистике» [2], который ориентирован на предметных специалистов и труден для восприятия людям без соответствующей квалификации. Также этот каталог не уделяет внимания образовательным программам и мероприятиям, что сужает область его применения. Отсутствие сообщества вокруг данного каталога делает затруднительным использование опубликованных знаний со стороны неспециалистов.

Портал «Речевые технологии» [3] является более любительским сообществом, посвящённым синтезу и анализу речи. Сообщество больше сосредоточено на общении, поэтому особого внимания каталогу не уделяется.

Каталог «Лингвистика в России: ресурсы для исследователей» [4] не заостряет своё внимание на обработке естественного языка, делая акцент на лингвистику в целом. Этим обусловлено отсутствие акцента на программное обеспечение и банки данных при достаточном количество ссылок на тематические ресурсы.

Сайт «Каталог лингвистических ресурсов и программ в Сети» [5] является слабоструктурированным каталогом ссылок, поддержка которого прекратилась автором в 2002 г., однако представленные материалы имеют ценность до сих пор.

Коллективный блог «mathlingvo» [6] является хорошим новостным ресурсом, куда любой желающий может прислать материал о мероприятии, образовательной программе, однако не уделяет внимания перечням программного обеспечения и информационных ресурсов (за исключением проекта OpenCorpora).

Вики-проект «NLPub» [8] направлен на коллективное пополнение каталога лингвистических ресурсов силами тематического сообщества. Нехватка данных может быть ликвидирована при возникновении социального заказа, учтённого критической массой активных участников сообщества. Заключение

В работе предложено определение каталога лингвистических ресурсов с обоснованием структурного состава и качественных характеристик каталогов. Проведён сравнительный обзор существующих информационных источников.

Сравнительный обзор каталогов лингвистических ресурсов по структурному составу и качественным характеристикам показал актуальность организации сетевых сообществ вокруг данных информационных источников.

При наличии технических и организационных возможностей, развитое тематическое сообщество способно самостоятельно закрывать нехватку каких-либо сведений в каталоге, тем самым решая две важные задачи: популяризацию области обработки естественного языка среди неспециалистов и предоставление ценных уникальных данных для предметных специалистов.

Литература:
  1. D. Jurafsky, J. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prentice-Hall, 2000.

  2. Портал знаний по компьютерной лингвистике [Электронный ресурс]: Портал знаний по компьютерной лингвистике. — Режим доступа: http://uniserv.iis.nsk.su/cl/ (дата обращения: 27.11.2012)

  3. Речевые технологии информационный портал - распознавание речи, синтез речи [Электронный ресурс]: Речевые технологии. — Режим доступа: http://speech-soft.ru/ (дата обращения: 25.11.2012)

  4. Компьютерная лингвистика [Электронный ресурс]: Научно-образовательный портал «Лингвистика в России: ресурсы для исследователей». — Режим доступа: http://uisrussia.msu.ru/linguist/_B_comput_ling.jsp (дата обращения: 26.11.2012)

  5. Каталог лингвистических программ и ресурсов в Cети [Электронный ресурс]: РВБ. — Режим доступа: http://www.rvb.ru/soft/catalogue/catalogue.html (дата обращения: 26.11.2012)

  6. Математическая и компьютерная лингвистика [Электронный ресурс]: mathlingvo. — Режим доступа: http://mathlingvo.ru/ (дата обращения: 28.11.2012)

  7. OpenCorpora: открытый корпус русского языка [Электронный ресурс]: OpenCorpora. — Режим доступа: http://opencorpora.org/ (дата обращения: 28.11.2012)

  8. NLPub — Заглавная страница [Электронный ресурс]: NLPub. — Режим доступа: http://nlpub.ru/ (дата обращения: 21.11.2012)

1 “Anytime a linguist leaves the group the recognition rate goes up.”

2 Речь идёт о программном обеспечении для обработки русского языка по сравнению с программным обеспечением для обработки западноевропейских языков.

Обсуждение

Социальные комментарии Cackle