Библиографическое описание:

Усталов Д. А. Каталоги лингвистических ресурсов: состояние и перспективы // Молодой ученый. — 2012. — №12. — С. 148-152.

В статье дано определение каталога лингвистических ресурсов, описан структурный состав и качественные характеристики. Проведён сравнительный обзор существующих каталогов. Сформулированы гипотезы о перспективах развития каталогов лингвистических ресурсов как тематических сообществ. Введение

Такие информационные ресурсы, как словари и тезаурусы, корпусы текстов и банки данных, имеют огромную ценность в области обработки естественного языка. Это обусловлено спецификой фундаментальных и прикладных задач компьютерной лингвистики, нередко решаемых при помощи разнообразных статистических методов.

Часто задачи обработки текста сводятся к задачам машинного обучения: формируется вектор признаков, генерируется обучающая выборка, по выборке обучается классификатор, а полученный классификатор уже используется в составе какого-либо программного обеспечения.

Эффективность таких методов достаточно высока, что подчёркивается фразой Фредерика Йелинека [1], известного учёного в области теории вычислительных систем: «Каждый раз, когда лингвист покидает коллектив, качество распознавания речи возрастает»1.

Несмотря на ценность и очевидную как научную, так и коммерческую значимость исследований и разработок в области обработки естественного языка, сегодня наблюдаются следующие проблемы:

  • отсутствие доступного качественного инструментария2 и вспомогательных утилит для обработки текста, для распознавания речи, и т. д.;

  • нехватка доступных информационных ресурсов: машиночитаемых словарей, тезаурусов, размеченных корпусов текстов, банков данных;

  • дефицит экспертов, а также тематических мероприятий и образовательных программ в регионах.

Данные проблемы делают особенно актуальной задачу сбора, систематизации и распространения сведений о доступных средствах и ресурсах для обработки русского языка. Каталог лингвистических ресурсов

Под каталогом лингвистических ресурсов понимается систематизированная совокупность электронных материалов, направленная на удовлетворение информационных потребностей пользователей, исследователей и разработчиков в области компьютерной лингвистики. Структурный состав

Каталог лингвистических ресурсов не имеет строгие требований к тематике материалов, однако возможно условно выделить следующие категории:

  1. программное обеспечение («ПО») — инструментарий для обработки естественного языка;

  2. ресурсы («Р») — словари, тезаурусы, корпусы текстов, банки данных, и т. д.;

  3. методы («М») — модели, способы, алгоритмы, подходы к решению фундаментальных и прикладных задач компьютерной лингвистики;

  4. мероприятия («МП») — тематические конференции, семинары, гранты, стипендии;

  5. образование («О») — высшие образовательные учреждения, стажировки;

  6. персоналии («П») — эксперты в области обработки естественного языка: представители предприятий и учреждений, учёные, прочие исследователи;

  7. организации («ОР») — предприятия и учреждения, деятельность которых связана с обработкой естественного языка;

  8. ссылки («С») — перечни ссылок на тематические ресурсы и сообщества.

Может оказаться, что некоторые категории оказываются заполнены значительно больше, чем другие. В таком случае целесообразно добавить дополнительную классификацию по направлениям внутри области обработки естественного языка: автоматическая обработка текста, распознавание и синтез речи, информационный поиск, и т. д. Качественные характеристики

Данные характеристики необходимо сформулировать с точки зрения всех категорий пользователей каталогов лингвистических ресурсов:

  • представители коммерческих компаний и бюджетных учреждений, желающие улучшить потребительские характеристики своих продуктов или услуг при помощи лингвистических технологий: каталог поможет снизить затраты на НИОКР благодаря детальному перечню доступных технологических решений, их особенностей и производителей;

  • исследователи, стремящиеся опубликовать свои разработки и имеющие необходимость сравнить полученные научные результаты с достижениями других исследователей и коллективов: каталог поможет оперативнее определить вектор развития науки и техники в данной области;

  • разработчики программного обеспечения: опубликованные в каталоге сведения о специфике разработки и функционирования инструментов обработки естественного языка позволят избежать лишних ошибок при проектировании и технической реализации собственного программного обеспечения;

  • студенты и аспиранты, интересующимся информационными технологиями: каталог позволит быстрее разобраться в специфике обработки естественного языка, получить хорошие результаты выполнения курсовых и дипломных работ, а также продолжить работу в данной области.

Таким образом, можно выделить пять качественных характеристик, позволяющих оценить и сравнить существующие каталоги:

  1. системность («С») — структурное представление электронных материалов в унифицированной форме;

  2. доступность («Д») — каталог бесплатно доступен любому пользователю Интернета на условиях какой-либо свободной лицензии;

  3. открытость («О») — возможность любого человека самостоятельно внести изменения в содержимое ресурса и участвовать в организационных процессах каталога;

  4. коммуникативность («К») — наличие сетевого сообщества: группы компетентных людей, связанных общей целью развития и популяризации каталога;

  5. актуальность («А») — состояние активности обновления каталога на текущий момент времени.

Существующие каталоги

При составлении обзора рассматривались популярные российские каталоги лингвистических ресурсов, найденные при помощи поисковых машинах «Яндекс» и Google. «Портал знаний по компьютерной лингвистике»

Портал знаний по компьютерной лингвистике призван обеспечить систематизацию и интеграцию знаний и информационных ресурсов по компьютерной лингвистике в единое информационное пространство, а также содержательный доступ к интегрированным знаниям и ресурсам [2].

На портале представлены знания об основных разделах компьютерной лингвистики, о ее предмете и объектах исследования, используемых в ней моделях и методах, разработанных в рамках компьютерной лингвистики технологиях, системах, программных продуктах и лингвистических ресурсах (словарях, корпусах и лингвистических баз данных), а также информация об ученых, сообществах, организациях, включенных в процесс исследования по компьютерной лингвистики и о выполняемых проектах в этой области.

Все изменения в содержимом портала осуществляются администрацией под руководством представителей Сибирского отделения РАН. «Речевые технологии»

Портал «Речевые технологии» посвящён вопросам исследований в области распознавания и синтеза речи, разработки средств речевого управления и голосовой идентификации [3].

На портале имеется каталог программного обеспечения и банков данных для пользователя и разработчика инструментов работы с речью, тематический форум, а также лента новостей. Сведения об информационных ресурсах добавляются и корректируются администрацией портала. «Лингвистика в России: ресурсы для исследователей»

Научно-образовательный портал «Лингвистика в России. Ресурсы для исследователей» создан в феврале 2006 года по инициативе Научно-исследовательского Вычислительного Центра МГУ им. Ломоносова и ГОУ ВПО «Казанский государственный университет им. В. И. Ульянова-Ленина» [4].

Задачей портала «Лингвистика в России» является создание инфраструктуры для поддержки сообществ исследователей и преподавателей для информирования и открытого обсуждения научных и образовательных задач российской лингвистики, интеграция лингвистического сообщества РФ.

На портале собран каталог ссылок на различные российские проекты в области компьютерной лингвистики. Развитие каталога осуществляется администрацией портала под руководством представителей КГУ им В. И. Ульянова-Ленина. «Каталог лингвистических программ и ресурсов в Cети»

Данный каталог включает в себя описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных сегодня в глобальной сети Интернет [5].

Упор при составлении каталога делался на бесплатные программы, доступные для загрузки. Однако также описаны некоторые on-line и коммерческие версии программ. Тематически каталог разбит на следующие разделы: программы анализа и лингвистической обработки текстов; программы преобразования текстов; психолингвистические программы; генераторы текстов и "говорящие" программы; системы обработки естественного языка; коллекции ресурсов; словари и тезаурусы. «mathlingvo»

mathlingvo — проект кафедры информационных систем в искусстве и гуманитарных науках СПбГУ, посвящённый математической и компьютерной лингвистике в России [6].

Представляет собой коллективный блог под руководством представителей кафедры, в котором уделено внимание перечням тематических конференций, периодических изданий, вакансиям. Также является представительством различных общественных инициатив, таких как OpenCorpora [7]. «NLPub»

NLPub — каталог лингвистических ресурсов, организованный в виде Вики-проекта, доступного для редактирования любому желающему [8]. Содержит пять категорий — инструменты (обработка текста, распознавание речи, утилиты), ресурсы (словари, тезаурусы, корпусы текстов, банки данных), а также сведения о тематических мероприятиях и доступных образовательных программах. Сравнение каталогов

Сравнение каталогов будет проводиться путём изучения их содержимого на предмет наличия в них характеристик, описанных выше. Внимание уделяется двум аспектам: структурному составу и качественным характеристикам.

В табл. 1 представлено сравнение каталогов лингвистических ресурсов по структурному составу, в табл. 2 приведены результаты сравнения каталогов лингвистических ресурсов на основании приведённых выше качественных характеристик.

Таблица 1

Сравнение каталогов лингвистических ресурсов по структурному составу

Название каталога

ПО

Р

М

МП

О

П

ОР

С

Σ

1

Портал знаний по компьютерной лингвистике

1

1

1

0

0

1

1

1

6

2

Речевые технологии

1

1

0

0

0

0

0

1

3

3

Лингвистика в России: ресурсы для исследователей

0

0

1

1

1

1

0

1

5

4

Каталог лингвистических ресурсов и программ в Сети

1

1

0

0

0

0

0

1

3

5

mathlingvo

0

0

0

1

1

1

0

1

4

6

NLPub

1

1

1

1

1

0

0

0

5


Таблица 2

Сравнение каталогов лингвистических ресурсов по качественным характеристикам

Название каталога

С

Д

О

К

А

Σ

1

Портал знаний по компьютерной лингвистике

1

1

0

0

1

3

2

Речевые технологии

0

1

0

1

1

3

3

Лингвистика в России: ресурсы для исследователей

0

1

0

0

1

2

4

Каталог лингвистических ресурсов и программ в Сети

0

1

0

0

0

1

5

mathlingvo

0

1

1

1

1

4

6

NLPub

1

1

1

1

1

5

Анализ результатов

Наиболее полным и систематизированным источником является каталог «Портал знаний по компьютерной лингвистике» [2], который ориентирован на предметных специалистов и труден для восприятия людям без соответствующей квалификации. Также этот каталог не уделяет внимания образовательным программам и мероприятиям, что сужает область его применения. Отсутствие сообщества вокруг данного каталога делает затруднительным использование опубликованных знаний со стороны неспециалистов.

Портал «Речевые технологии» [3] является более любительским сообществом, посвящённым синтезу и анализу речи. Сообщество больше сосредоточено на общении, поэтому особого внимания каталогу не уделяется.

Каталог «Лингвистика в России: ресурсы для исследователей» [4] не заостряет своё внимание на обработке естественного языка, делая акцент на лингвистику в целом. Этим обусловлено отсутствие акцента на программное обеспечение и банки данных при достаточном количество ссылок на тематические ресурсы.

Сайт «Каталог лингвистических ресурсов и программ в Сети» [5] является слабоструктурированным каталогом ссылок, поддержка которого прекратилась автором в 2002 г., однако представленные материалы имеют ценность до сих пор.

Коллективный блог «mathlingvo» [6] является хорошим новостным ресурсом, куда любой желающий может прислать материал о мероприятии, образовательной программе, однако не уделяет внимания перечням программного обеспечения и информационных ресурсов (за исключением проекта OpenCorpora).

Вики-проект «NLPub» [8] направлен на коллективное пополнение каталога лингвистических ресурсов силами тематического сообщества. Нехватка данных может быть ликвидирована при возникновении социального заказа, учтённого критической массой активных участников сообщества. Заключение

В работе предложено определение каталога лингвистических ресурсов с обоснованием структурного состава и качественных характеристик каталогов. Проведён сравнительный обзор существующих информационных источников.

Сравнительный обзор каталогов лингвистических ресурсов по структурному составу и качественным характеристикам показал актуальность организации сетевых сообществ вокруг данных информационных источников.

При наличии технических и организационных возможностей, развитое тематическое сообщество способно самостоятельно закрывать нехватку каких-либо сведений в каталоге, тем самым решая две важные задачи: популяризацию области обработки естественного языка среди неспециалистов и предоставление ценных уникальных данных для предметных специалистов.

Литература:
  1. D. Jurafsky, J. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Prentice-Hall, 2000.

  2. Портал знаний по компьютерной лингвистике [Электронный ресурс]: Портал знаний по компьютерной лингвистике. — Режим доступа: http://uniserv.iis.nsk.su/cl/ (дата обращения: 27.11.2012)

  3. Речевые технологии информационный портал - распознавание речи, синтез речи [Электронный ресурс]: Речевые технологии. — Режим доступа: http://speech-soft.ru/ (дата обращения: 25.11.2012)

  4. Компьютерная лингвистика [Электронный ресурс]: Научно-образовательный портал «Лингвистика в России: ресурсы для исследователей». — Режим доступа: http://uisrussia.msu.ru/linguist/_B_comput_ling.jsp (дата обращения: 26.11.2012)

  5. Каталог лингвистических программ и ресурсов в Cети [Электронный ресурс]: РВБ. — Режим доступа: http://www.rvb.ru/soft/catalogue/catalogue.html (дата обращения: 26.11.2012)

  6. Математическая и компьютерная лингвистика [Электронный ресурс]: mathlingvo. — Режим доступа: http://mathlingvo.ru/ (дата обращения: 28.11.2012)

  7. OpenCorpora: открытый корпус русского языка [Электронный ресурс]: OpenCorpora. — Режим доступа: http://opencorpora.org/ (дата обращения: 28.11.2012)

  8. NLPub — Заглавная страница [Электронный ресурс]: NLPub. — Режим доступа: http://nlpub.ru/ (дата обращения: 21.11.2012)

1 “Anytime a linguist leaves the group the recognition rate goes up.”

2 Речь идёт о программном обеспечении для обработки русского языка по сравнению с программным обеспечением для обработки западноевропейских языков.

Основные термины: лингвистических ресурсов, обработки естественного языка, каталогов лингвистических ресурсов, компьютерной лингвистики, области обработки естественного, каталога лингвистических ресурсов, Режим доступа, Электронный ресурс, дата обращения, компьютерной лингвистике, Каталог лингвистических, Каталог лингвистических ресурсов, определение каталога лингвистических, информационных ресурсов, программного обеспечения, «Каталог лингвистических, лингвистических программ, задач компьютерной лингвистики, банки данных, области компьютерной лингвистики

Обсуждение

Социальные комментарии Cackle