MS Word: Тестирование проверщика правописания и причины пропуска ошибок

Лавошникова Элина Константиновна

Рассматривается проблематика компьютерных систем проверки правописания. Работа автокорректоров разбирается на примере текстового редактора MICROSOFT WORD (версии 2013 и 2003 гг.). На конкретных примерах показано, что перегруженность системных словарей устаревшей и низкочастотной лексикой при компьютерной проверке орфографии во многих случаях приводит к пропуску ошибок и опечаток. Даются рекомендации по совершенствованию работы программы-«подсказки».

Ключевые слова: проверка правописания; русский язык; орфографические ошибки; опечатки; орфографический словарь; спеллер; автокорректор; MSWord2003; Word2013.

Программы, проверяющие правописание, называют автокорректорами, а также спеллерами или спел-чекерами. При компьютерной проверке текстов слова обычно сравниваются со словоформами, имеющимися или порождаемыми (из квазиоснов и квазиокончаний) в системных словарях [3]. Если слово в компьютерных словарях не найдено, то оно либо «новое», т. е. по каким-то причинам не включенное в словари текстового редактора, либо содержит ошибку. В обоих случаях спеллер предлагает пользователю обратить на такое слово свое внимание (например, подчеркивает красной волнистой линией).

Word’2003 неожиданно вдруг перестал (в отличие от предыдущих версий) «узнавать» слова голубой, розовый, дурак, идиот, стерва, негр и другие «нехорошие» слова, даже глагольную форму осел (заодно подчеркивались красным словоформы осела, осели и т. п.). Но Word 2013 года вернул эти лексемы в свой системный словарь и пропускает их в тексте без возражений.

В «Грамматическом словаре» академика РАН Андрея Анатольевича Зализняка [1] особыми символами отмечены прилагательные, краткие формы от которых почти никогда не употребляются (предположительны или затруднительны). Однако в MS Word (2003 и 2013) такие краткие формы образуются и пропускаются без замечаний: дальне, дочерня, зелененьки, легонька, осторожненька, прежни, свеженьки, тихонька и т. п. Очевидно, что эти слова в современных текстах с большей вероятностью могут быть получены в результате обрезания «по техническим причинам» последней буквы (например, при недостаточно сильном нажатии клавиши, нечаянной вставке пробела или при сканировании со сгиба книги).

В основном системном словаре автокорректора, встроенного в текстовый редактор Word (2003 и 2013), имеются следующие лексемы, пропускаемые спеллером без замечаний: ас и асс (некорректное образование летчик-асс пропускается без подчеркивания, хотя низкочастотное существительное асс имеет значение ‘древнеримская монета’ [1]), достигать и достегать (‘закончить шитье стеганого одеяла’, от глагола стегать), кортеж и картеж (картёж — игра в карты), наживаться и нажеваться (от глагола жевать), пародировать и парадировать (от существительного парад), подражать и подрожать (от глагола дрожать).

Этот список может быть продолжен. В текстах пользователей такие низкочастотные слова, как вторые члены этих пар, с большей вероятностью могут возникнуть в результате ошибки или опечатки. Однако при проверке текстов Word’овским спеллером они пропускаются без замечаний (никак не подчеркиваются), так как без каких-либо особых помет имеются в его основном системном словаре.

С целью проиллюстрировать, в какой степени можно полагаться на спеллеры, ниже приводятся специально придуманные фразы со «склеиванием» соседних словоформ, с «разрезанием» слов и другими ошибками (опечатками). Автокорректор текстового редактора Word’2013 (как и Word’2003) не выдает никаких замечаний к таким «высказываниям». Нет подчеркивания красной волнистой линией — предупреждений о возможных орфографических ошибках, так как все эти словоформы имеются или порождаются в основном словаре спеллера, нет и зеленой волнистой линии — предупреждения о синтаксических или стилистических ошибках. В пояснениях к этим проверочным фразам-тестам даны фрагменты словарных статей из «Русского орфографического словаря» [6].

1. В оологическом саду жил ежь, всех поте шал. Его после уро ков принес од ин пи онер.

Ср.: оологический, ёжить(ся), пот, шала (неочищенный рис), уро (?), ковы, ода, «ин, частица», «пи, нескл., с. (название буквы, матем.)», «онёр: со всеми онёрами». При ошибочном написании слова еж с мягким знаком получился императив («Ёжь!») от неупотребительного глагола ёжить. Частица ин в современном языке почти не употребляется, о чем спеллер мог бы предупреждать пользователя. Эта частица может быть получена при нечаянной вставке пробела: карт ин, крестьян ин, ин вариант, ин станция. Слово онер употребляется только в выражении «со всеми онёрами», о чем сигнализирует двоеточие в соответствующей словарной статье в словаре А. А. Зализняка [1], но Word, как и для некоторых других фразеологизмов (с лихвой, не к спеху), порождает полную его парадигму (онера, онеру и т. д.), которая мешает спеллеру обнаруживать опечатки (например, в словоформе опер) или разбиения некоторых слов (рез онер, т онер и др.).

2. Контроллеры вы проси ли нашесть уловных единиц больше запродажу фото графий. Вы сточки зрения вашей рол и неправильно мыслете. Вышвыряете ку чу де нег.

Ср.: контроллер (аппарат), нашесть (вариант слова нашест [1]), запродажа, графия, сточка, рол, «мыслете, нескл., с. (название буквы)», вышвырять, ку (название буквы), чу (междометие), нега. Слова де как такового нет в словарях [1, 6], есть словарная статья «-де (без удар.) част»., где имеется предшествующий дефис. Из-за присутствия де в системных словарях Word’2013 спеллер пропускает разбиения: арен де, де юре (нормативное написание: де-юре), де градация.

3. Закраем села и вкруг нетям и ко чек, ничтоже тебе не мешает ка тать коляску!

Ср.: «закрай, -я, (закраек)», «вкруг, нареч. (устар. к вокруг)», «нети: в нетях» (фразеологизм), яма, ко (предлог), чек, ничтоже — из фразеологизма «ничтоже сумняшеся», ка (название буквы), устаревшее тать.

Приведем еще в качестве примера такую фразу: «Кеш можно не тратить, кеш нам еще пригодится». В первом вхождении слова «кеш» (с прописной буквы) автокорректор текстового редактора Word’2013 «распознает» уменьшительное имя Кеша — его родительный падеж мн. числа или сокращенную звательную форму (пример: «Тань, береги свою гор тань!» — Word'2013 пропускает звательные формы некоторых личных имен и в этой фразе подчеркивает красным только последнее «тань»). «Кеш» никак спеллером не подчеркивается. При втором вхождении слова («кеш» со строчной буквы) спеллер предупреждает о якобы ошибке, считая правильным написание «кэш», что противоречит рекомендациям академических словарей [6].

В лексической базе текстового редактора MS WORD представлены и никак не маркируются низкочастотные глаголы: вмесить, впить, вскользнуть, выбросать, вымешать, вытроить, густить, досажать, избабиться, кориться, маять, небречь, обзнакомиться, окорять, повестить, помститься, послышать, прашивать, примститься, ристать, сбирать (и сбираться: «Как ныне сбирается вещий Олег…»), сроить, ссунуть,сытить, тропить, узиться, утонить, уточить, учувствовать, хвостать и др. Это далеко не полный список. Подобные глаголы и образуемые от них причастия в реальных текстах пользователя могут появиться в результате опечаток в более употребительных словах. Почти никогда не встречающиеся в современных текстах слова можно было бы убрать из основного системного словаря текстового редактора. При этом низкочастотные слова будут подчеркиваться либо как не найденные в словарях спеллера, либо (в случае их перевода с пометами в особые словари) как имеющие ограниченную область употребления — с выдачей по желанию пользователя толкований и разъяснений.

Не все слова с пометами даже из первого издания словаря А. А. Зализняка, положенного в основу при создании системного словаря первого Word’овского автокорректора ОРФО [2, 3], учтены в системе Word’2013. Например, у глагола спотыкнуться в словаре Зализняка есть ссылка на глагол споткнуться, где к его варианту спотыкнуться дается помета простореч., однако система Word’2013 глагол спотыкнуться во всех его формах пропускает без каких-либо подчеркиваний. Маловероятно также встретить в текстах употребление форм множественного числа от некоторых существительных (верам, мглами), а также отдельных глагольных форм (окислишься, удаюсь). Часто в тех случаях, когда в словаре Зализняка даются указания, что какие-либо формы из парадигмы слова затруднены или избегаются, проверщик правописания Word’2013 пропускает их без замечаний. Например: от слов часок, роток, кусток — часку, часков, ротки, роткам, кустком, кустками и т. п.

Из всего вышеизложенного главные выводы таковы. Чем «богаче» основной системный словарь автокорректора, тем больше ошибок пропускается; чем он беднее, тем больше «ложных тревог». С одной стороны, желательно, чтобы системные словари текстовых редакторов как можно больше пополнялись новыми словами. При этом могли бы использоваться и механизмы словообразования, создания «словарных гнезд». С другой стороны, в основных системных словарях должны быть выявлены малоупотребительные слова и словоформы, которые могут совпасть с искажениями (в результате наиболее вероятных ошибок и опечаток) достаточно употребительных словоформ. Такие «подводные камни», которые «вылезают» в списках рекомендуемых вариантов исправления, могли бы снабжаться особыми пометами или выноситься в дополнительные компьютерные словари [4, 5].

Наиболее вероятные варианты исправления целесообразно было бы выдавать пользователю в начале списка. Это особенно актуально для коротких слов, когда число предлагаемых программой- подсказкой словоформ доходит до нескольких десятков.

В новых версиях автокорректоров желательно учитывать технические и психологические причины возникновения опечаток и ошибок. Мы предлагаем дополнять компьютерные системные словари спеллера списками наиболее вероятных искажений — для некоторых слов. Такие сведения о типичных ошибках будут способствовать более эффективной работе текстового редактора, его программы-подсказки, а также минимизации числа отказов в выдаче вариантов исправления при компьютерной коррекции текстов.

Игорь Станиславович Ашманов полемике на roem.ru пишет:

«Я своими руками сделал русскую морфологию в ОРФО много лет назад… Устаревшие слова немногочисленны и обычно в словарь спеллера попадают изначально, поскольку входят в ядро любого словаря русского языка, в том числе в главном источнике — словаре Зализняка. И включение их или выключение — это вопрос чистки словаря с целью повышения соотношения полнота/точность. С объёмом словаря это соотношение не связано. <…> Короче говоря, улучшать спеллеры можно. Но это вряд ли окупится, если не будет гранта или госфинансирования. Потому что продать пользователям следующую версию спеллера, если в нём есть тончайшие улучшения типа «меньше стали путаться редкие слова и ошибки» — нельзя» (https://roem.ru/27–03–2009/128340/yandeks-poka-ne-budet-delat-brauzer/). Увы!..

Литература:

1. Зализняк А. А. Грамматический словарь русского языка: Словоизменение. Ок. 110 000 слов. — 4-е изд., испр. и доп. — М.: «Русские словари», 2003. — 800 с.

2. Лавошникова Э. К. Компьютерная коррекция орфографии и разночтения в словарях: Возможны варианты? // Филоlogos. — 2015. — № 24 (1). — С. 49–54.

3. Лавошникова Э. К. Компьютерная проверка орфографии: вчера, сегодня, завтра // Вестник Московского ун-та. Серия 9: «Филология». — 2003. — № 5. — С. 53–68.

4. Лавошникова Э. К. О «подводных камнях» в компьютерных системах проверки правописания // Вестник Московского ун-та. Серия 9: Филология. — 2002. — № 6. — С. 151–163.

5. Лавошникова Э. К. О компьютерной коррекции «популярных» ошибок в текстах на русском языке // Научно-техническая информация. Серия 2. «Информационные процессы и системы». — 2003. — № 9. — С. 28–34.

6. Русский орфографический словарь (РОС): ок. 200 000 слов / под ред. В. В. Лопатина, О. Е. Ивановой. — Ин-т русского языка им. В. В. Виноградова РАН. — М.: АСТ-ПРЕСС КНИГА, 2013. — 896 с.

Молодой учёный

MS Word: Тестирование проверщика правописания и причины пропуска ошибок

MS Word: Тестирование проверщика правописания и причины пропуска ошибок

Молодой учёный