Англо-Казахский параллелный корпус для статистического машинного перевода

Калдыбеков Таннур Ерланович

В этой статье представлены проблемы и решения в разработке англо-казахского параллельного корпуса в механико-математическом факультете Казахского Национального Университета им. аль-Фараби. В научно-исследовательский проект включены: построение англо-казахского параллельного корпуса из миллиона слов с юридическими текстами; разработка англо-казахской базы переводов юридических текстов из корпуса; создание системы статистического машинного перевода. Проект направлен на сбор более десяти миллионов слов. В статье также подробно описаны процедуры, строится корпус и развиваются другие продукты научно-исследовательский работы. Описаны методы, используемые для сбора данных, а также обсуждаются ошибки в процессе сбора данных и как исправить эти системные ошибки.

Ключевые слова: параллельный корпус; статистический машинный перевод; сбор данных; юридические тексты, англо-казахский корпус

Resume

This paper presents problems and solutions in developing English-Kazakh parallel corpus at the School of Mechanics and Mathematica of the Al-Farabi Kazakh National university. The research project included constructing a 1,000,000 word English-Kazakh parallel corpus of legal texts, developing an English-Kazakh translation memory of legal texts from the corpus and building a statistical machine translation system. The project aims at collecting more than ten million words. The paper further elaborates on the procedures followed to construct the corpus and develop the other products of the research project. Methods used for collecting data and the results are discussed, errors during the process of collecting data and how to handle these errors will be described.

I. ВВЕДЕНИЕ

Государственным языком Республики Казахстан является казахский язык. Казахский язык является родным языком примерно для 9,9–11 миллионов человек. По данным переписи населения Казахстана 2009 года около 9 982 276 казахов назвали своим родным языком казахский. Почти 1,8 млн других народов Казахстана также владеет казахским, в той или иной степени. Наибольший процент владения наблюдается среди родственных тюркских народов (в процентах): узбеков (95,5), уйгур (93,7), киргиз (92,7), турок (91), азербайджанцев (81,2), татар (72,6). Среди славянских народов процент владеющих сравнительно невелик: русских (25,3), украинцев (21,5), поляков (20,9), белорусов (19).

Один из самых известных параллельных корпусов является Europarl (Koehn, 2002), который представляет собой набор материала в том числе 11 Европейских языков, взятый из трудов Европейского парламента. Другой, часто используемый параллельный корпус является JRC-Acquis Многоязычный Параллельный Корпус (Штейнбергер соавт. 2006). Корпус состоит из документов законодательного текста, охватывающий различные домены, более 20 языков.

Корпус казахского языка принадлежит к новому типу ресурсов, следовательно, нам находимо большое количество доступных ресурсов. Казахский национальный корпус (сайт: http://dawhois.com/www/til.gov.kz.html) является одним из первых корпусов, но это не аннотированный и очень маленький. Корпус казахского языка (Махамбетов и др., 2013) является еще одним ресурсом с лингвистической аннотацией и который находится в разработке учеными из Назарбаевского Университета. Мы изучили работы Г.Алтынбека и W.Xiao-long о казахском корпусе разработанным в Xinjiang университете и используемый в исследованиях с 2010 года. Но не было найдено другой информации о корпусе, а так же какие-либо опубликованные статьи о проведенных исследованиях А.Муканом в 2012 году. Кроме того, новый маленький корпус построенный Байсом и Сучомелом в 2012 году, это корпус в составе тюркских языков. Мы считаем, что эти казахские Корпусы имеют самостоятельное взаимодействие и являются полезным инструментом при анализе казахского языка.

Корпусы юридических текстов Corpora разработаны для лексикографических и исследовательских целей. Также Corpora охватывает оболочку юридических текстов в свободном доступе на официальном сайте: http://adilet.zan.kz/. Это параллельный Англо-Казахский корпус, содержащий около 46 000 предложений из статей правовых кодексов.

Под «параллельным корпусом», мы имеем в виду текст, который можно приобрести в англо-казахской языковой паре: это оригинальный текст и его перевод, также есть тексты, которые были написаны консорциум авторов в различных языках (например, ООН конвенции), а затем опубликованы в различных языковых версиях. Основная часть работы организована следующим образом: Следующий раздел содержит обзор архитектуры системы и рассматривает конкретные проблемы на подготовительном этапе. Раздел 3 описывает алгоритм расстановки предложения и его порядка. В разделе 4 мы оцениваем качество готового параллельного корпуса и предоставим некоторую статистическую информацию о языковой паре англо-казахского параллельного корпуса. В последнем разделе мы приводим короткие общие замечания.

Нашей конечной целью является построить большой корпус параллельных предложений, который будет достаточно хорошим для обучения системы статистического машинного перевода.

II. ОБЗОР СИСТЕМЫ

Первая идея, чтобы найти похожих кандидатов пар предложений используя параллельные метки, часто сопровождаемые якорями или парами имен файлов, которые отличаются только в идентификации языка, например, с альтернативными каталогами в пути, или суффиксах, таких как «en» и «kz».

Эти кандидаты затем оцениваются путем сравнения, в очень упрощенной форме, их содержание: поскольку они являются HTML документами, как правило, довольно легко выровнять HTML разметку, и сравнить объем текста между каждыми якорями. Таким образом, мы получаем грубую карту из структур двух документов. Они могут быть по сравнению использованы методом разнообразия, которые могут включать виды лингвистических методов, используемых в створе известных параллельных предложений. Например, следующий абзац часть параллельных англо-казахских страниц с незначительным различием в разметке и содержания:

</div>

      PREAMBLE<br>

      Whereas recognition

of the inherent dignity and of the equal and inalienable rights

of all members of the human family is the foundation of

freedom, justice and peace in the world, <br>

</article>

</div>

<h3 id="z3"> Преамбула </h3>

<p>    Адам баласының барлық мүшелеріне тән қадір-қасиетін, құқықтарының теңдігі мен тартып алынбайтындығын тану, бостандық пен әділдіктің жалпыға ортақтығы<br></p>

</article>

</div> </div>

В этой статье мы решаем задачи извлечения из параллельных фрагментов лучшие параллельные фрагменты. Способ разработки параллельных текстов из большого документа обычно включает в себя обнаружение набора потенциальной параллельной пары документов с низким уровнем точности алгоритмов, фильтрации нежелательных текстов, например, сноски. В наших экспериментах мы использовали алгоритм расстановки предложения, аналогичной (Brown и др., 1991; Gale & Church, 1993), это в основном, направленный на достижение высокой точности. Поиск параллельных текстов на веб-документах является задачей, которая имеет методы, основанные главным образом на анализе разметки и HTML разбора инструментов HTML, например, BeautifullSoup.

Мы разработали метод основанный на библиотеке BeautifulSoup, который зависит от конкретной структуры исходного документа. BeautifulSoup это библиотека Python для обрабатывание данных из HTML и XML файлов. Она обеспечивает идиоматические способы навигации, поиск и модификации дерево разбора. Наш основной источник документов — веб-страницы с веб-сайта, базы данных с их текстовым содержимым уже извлечены и границы расстановки предложения обнаружены.

После очистки необработанных данных, полученные от HTML файлов, текстовые данные автоматически обрабатываются с помощью средств для маркирования, сегментации, маркеры являются вручную отмечены светлым. Извлеченные строки предложений упорядочены автоматически, и английские слова связаны друг с другом как и в казахском языке. Мы используем стандартные методы для установления связей между источником и целевыми языковыми сегментами.

Главы и предложения выравниваются с помощью lengthbased. Подход, разработанный Галеом и Чёрчем (1993). Один раз предложения приведены в соответствие в исходном и целевом языке.

Результаты показывают, что от 70 % до 87 % предложения были выровнены с помощью автоматического выравнивателя в зависимости от качества текста и словаря. Мы собираемся частично построить корпус с помощью Hunalign инструмента для автоматического выравнивания. Таким образом, усилия поставить в разработке общего метода с помощью инструментов, которые могут быть применены для аналогичных ресурсов.

ВЫРАВНИВАНИЕ

Для того чтобы использовать в различных целей наш параллельный текст, сначала необходимо выровнять два текста в параграфе или на уровне предложения. Под выравниванием мы имеем в виду объединение кусков текста в один документ с их переводом или перенос эквивалентного текста в другой документ. Часть существующих подходов по выравниванию текста используют некоторые виды традиционного анализа текстов (например, разбора и т. д.), тогда как другие принимают совершенно другой автоматический подход. Для нашего проекта, то есть выбор параллельных предложений зависит от точности такой информации.

Гале, Чёрч, Браун и другие вместе разработали выравнивающие программы, основанные на простом предположении, что значимая корреляция от относительной длины текстов, переводами друг в друга.

Бывший измеренная длина в символах, последний в слова. Simard др. предложил некоторые усовершенствования. Таким образом, и Чёрч взяли выход их программы выравнивания и используется для определения соответствия на уровне слов.

Не большая часть раннего успеха всех этих подходов не было никакого сомнения в связи с тем, что они использовали канадский Hansard корпус. Он был очень хорош в том, что большинство предложений и абзацев выстраивались красиво, а также французский и английский синтаксически и лексически очень похожи.

Если мы попытаемся проиллюстрировать его в другую сторону, рассмотрим два текста с длиной различные сегменты. На первый взгляд, наиболее интуитивный выравнивание <A> пары до сегментах почти равной длины, как показано стрелками. Но более вероятно, выравнивание, которое составляет более текста обратился к проблеме «шумной» тексты <n>, пытаясь выровнять на основе похожих коротких участков символов. Таким образом, мы смотрели на текстах <T> которые были извлечены из копии документа, и так содержится проблемы перекосы <p> вызвано различной нумерации страниц, например, сноски внезапно появляющиеся в середине абзаца или выяснить заголовки из последовательности. Большинство подходов имеет общую методику, которая включает в себя идентификацию якорь <a> очков и проверку сопоставимости текстовых материалов между анкерами. Эти якоря могут, в простейшем случае, быть структурной, как в начале работы на Галеом и Чёрчем, где границы приговор <b> берутся сделать начальная сегментация. Так что можно сказать, выравнивание зависит от следующей ситуации (1):

<A> = (<a><b><T>) / (<P><N>) (1)

То, что мы сначала определить потенциальные точки привязки всей Текста (т), а затем выбрать те, которые наиболее близки к идеальным выравнивание который является горизонтальными линиями (ч). Затем они определяют субрегионов (г), где процесс может повторяться. Методы «сглаживание» может использоваться, чтобы уменьшить пространство поиска еще дальше.

Помимо автоматической оценки пар перевода, ряд алгоритмов выравнивания приговор полагаться на словарей в качестве метода для нахождения лексической опорной точки. Эта техника конечно зависит от наличия подходящего словаря, не говорится, что необходимо для эффективного лемматизации в случае высоко склоняется язык как казахском языке.

Метод был использован для извлечения словаря, является гибридом Приговор и слово-выравнивание. Подход найти слово пары, которые, скорее всего, выровнять-состоянии на основе похожи распределение. Это распределение определяется с точки зрения текстовых секторов, и коэффициент Dice (У.) используется для количественной оценки вероятности. Коэффициент Dice автора (2) представляет собой простой расчет, который сравнивает с, количество раз, два слова-кандидаты происходит в то же самое сектор с А и В, число раз источником или целевой слова происходят независимо.

D = (2c) / (a+b) (2)

Алгоритм является итеративным в том, что предложения, содержащие пары высокие места в Индексе слово устанавливаются в качестве якоря, которые позволяют разбит текст на более мелкие сегменты, обеспечивающим более и больше результатов.

III. КАЧЕСТВО ОЦЕНКИ

Мы оцениваем качество корпуса с двумя способами:

- Выберем каждую пару из 100- предложения от корпуса и ручной проверки предложений, параллельны они или нет.

- Обучение статистической системы машинного перевода на корпус и тестирования его выход с BLEU метрики.

- Большинство алгоритмов делают определенные предположения о природе параллельного корпуса:

- Слова имеют один смысл для каждого домена.

- Нет отсутствующих переводов в обеих языках.

- Частоты переводы предложения являются сопоставимы.

- Позиции словами сопоставимы

Уникальность перевода подрывается еще и тем, что местные синтаксические условия может привести к словоизменительный морфология на одном языке, но не других: в частности, распределение единственного и множественного числа, могут существенно различаться, в противном случае близкородственных языков, даже не рассматривая грамматическая случай и пола. Эту проблему можно решить путем подвергая корпусов к процессу лемматизации.

Другая проблема заключается в том, что соединения нескольких слов в одном языке может соответствовать к типографским одного слова в другую.

Разность частот слово снова тот факт, что один слово на одном языке может иметь различные переводы в другие только из-за грамматической перегиба. Wordorder фундаментальное различие между многих языках, таких как Английский (SVO) и Казахский (СОВ).

Мы протестировали системы перевода казахский на английский на 4000 испытаний приговоры различной языковую модель заказ от триграмме в 5-грамм. BLEU измеряется о 10.03. Система производительность может быть улучшена путем подготовки больших языковых модели, поэтому нашей целью является показать корпус для обучения статистической системы машинного перевода.

IV. ЗАКЛЮЧЕНИЕ

Мы описали наши подходы к проблемам для строительства параллельного англо-казахского корпуса из интернета. И нашими способами автоматического выравнивания текста, который нам позволил создать пар предложений, которые извлекаются из документов с более чем 70 %.

Подход опирается на общих свойств государственного OFTHE-искусство оба языка и, следовательно, применима ко многим другим парам языков.

Смотрим файлы проекта в нашем хранилище: https://bitbucket.org/kzmt общественности.

Мы представили результаты оценки англо-казахского параллельного корпуса. Мы уверены, что англо-казахский параллельный корпус из параллельные выражения, употребляемые в данной работе является полезным ресурсом для исследование машинного перевода и конкурсы машинного перевода.

Литература:

Altenbek G. and WANG Xiao-long. 2010. Kazakh segmentation system of inflectional affixes. In Joint Conference on Chinese Language Processing, CIPS- SIGHAN, p. 183–190.
Antonov A., Misureyev A., Building a Web-based parallel corpus and filtering out machine- translated text. 2011. Proceedings of the 4^th Workshop on Building and Using Comparable Corpora, 49th Annual Meeting of the Association for Computational Linguistics,Portland,Oregon, p. 136–144.
Makhambetov O., Makazhanov A., Yesssenbayev ZH., Matkarimov B., Sabyrgaliev I., Sharafudinov A. 2013. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing,Seattle, Washington, USA, p. 1022–1031
Gale, W. A., & Church, K. W. 1993. A program for aligning sentences in bilingual corpora. Computational Linguistics, 19(3), 75–102.
http://dawhois.com/www/til.gov.kz.html
http://ru.wikipedia.org/wiki/Казахский_язык
http://kaz-tili.kz/
http://online.zakon.kz/Document/?doc_id=1008034
http://adilet.zan.kz/

Молодой учёный

Англо-Казахский параллелный корпус для статистического машинного перевода

Англо-Казахский параллелный корпус для статистического машинного перевода

Молодой учёный