О компьютерной проверке орфографии имен и фамилий | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 23 ноября, печатный экземпляр отправим 27 ноября.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №16 (96) август-2 2015 г.

Дата публикации: 13.08.2015

Статья просмотрена: 567 раз

Библиографическое описание:

Лавошникова, Э. К. О компьютерной проверке орфографии имен и фамилий / Э. К. Лавошникова. — Текст : непосредственный // Молодой ученый. — 2015. — № 16 (96). — С. 38-43. — URL: https://moluch.ru/archive/96/21565/ (дата обращения: 15.11.2024).

Разбираются причины пропуска спеллером текстового редактора MicrosoftWord2013 ошибок и опечаток в написании личных имен, отчеств и фамилий. Даются рекомендации по совершенствованию работы программы-«подсказки».

Ключевые слова: компьютерная коррекция правописания; имена собственные; личные имена; фамилии; автокорректор; спеллер; текстовый редактор; Word 2013.

 

Компьютерные системы, выявляющие в текстах, написанных на русском языке, опечатки и ошибки правописания (более или менее успешно пока только орфографические), называют автокорректорами, орфокорректорами, а также спеллерами или спелл-чекерами. Интересно, что спеллер текстового редактора Word’2013 (как и его предыдущие версии) вопреки рекомендациям академических изданий, таких как «Русский орфографический словарь» [5], пропускает без замечаний написание «спел-чекер», а вариант с удвоенной «л» подчеркивает красной волнистой чертой как ошибочный (вернее, не найденный в его системных словарях). Слово «орфокорректор» (см. [5]) в системных словарях тоже отсутствует и таким же способом выделяется в проверяемом тексте.

Словоформы, подчеркиваемые (красной волнистой линией) при проверке спеллером текстового редактора Word2013, мы в этой статье далее тоже будем подчеркивать.

Четвертое издание «Грамматического словаря русского языка» с обратным алфавитным порядком (последнее слово «несовершеннолетнЯЯ») академика РАН Андрея Анатольевича Зализняка дополнено приложением «Имена собственные» (более 8 тыс. словарных статей) [1, с. 731]. Однако версии текстового редактора MS Word разных лет, базирующегося на первых изданиях словаря Зализняка, еще до выхода 4-го издания (2003 г.) уже содержали небольшие системные словари имен собственных.

В некоторых сравнительно старых версиях Word’а уменьшительные имена Маша, Катя, Юля, Коля, Боря пропускались без подчеркиваний только по той причине, что спеллер считал их деепричастиями от глаголов «махать», «катить», «юлить», «колоть» и малоупотребительного глагола «бороть» (в статьях [3; 4] мы приводим многочисленные примеры низкочастотных глаголов, мешающих обнаружению ошибок при компьютерной проверке текстов). Word’2013 уже содержит эти уменьшительные имена в своих системных словарях — это можно утверждать на основании того, что формы Машей, Катей, Юлей пропускаются спеллером без замечаний, в то время как «машей», «катей», «юлей» подчеркиваются красным как неопознанные. При этом всё же без подчеркивания пропускаются словоформы «коле» (пример: «говорили о коле в его дневнике»), «колей» (род. п. мн. ч. от существительного «колея») и «борей» (северный ветер).

В статье Л. И. Зубковой [2, с. 67] читаем: «Суффиксы личных имен собственных выполняют эмоционально-экспрессивную функцию. <…> Такого обилия словообразовательных средств нет ни в одном другом антропонимическом классе…»

В системных словарях текстового редактора Word 2013 уже размещены даже звательные формы личных имен. Пример: «Ань, смотри не уст ань!» — в этой фразе с разбиением последнего слова «устань», что случается при нечаянной вставке пробела, спеллер подчеркивает красным только последнее «ань». Еще пример: «Прош, Кеш, прош у, не тратьте кеш!». (Похожие примеры мы приводили в работе [4, с.126].) Во второй фразе допущен пробел в слове «прошу», поэтому «прош» со строчной буквы подчеркивается красным — в отличие от звательных форм уменьшительных имен Проша и Кеша. Но подчеркивается и форма «кеш» со строчной буквы — вопреки рекомендациям академических словарей [5]. Разработчики Word’а правильным считают написание «кэш».

В Word’овских системных словарях содержатся имена Аннушка, Анюта, Анечка, Анка, Анька, Ася, Алексашка, Саша, Санька, Шурочка, Шурик, Сашура, Манька, Муся, Мариша, Нюша, Костик, Филя, даже Чук и Гек (герои повести Аркадия Гайдара). Этот список далеко не полон. Приведем пример с достаточно распространенной опечаткой — пропуском буквы: «Шурки кролика — не очень ценный мех». Спеллер-2013 эту фразу пропускает без замечаний — «благодаря» включению в системный словарь текстового редактора имени «Шурка». Можно предсказать еще несколько примеров пропуска опечаток в результате включения в системный словарь некоторых имен: «Маши те платком!», «Чук чей осталось мало», «Гек тор», «Ия так думаю», «Лар предвидения» (вместо «Дар» — соседние по клавиатуре буквы «заменяют» друг друга), Ксеня (Ксения), Луше (Лучше).

При проверке фразы «Катинька, я вас люблю безумно!» (из рассказа Чехова «Жалобная книга») первое слово подчеркивается красной волнистой линией, а подсказка-2013 предлагает написание по современным правилам русского языка — КатЕнька.

В словосочетании «Даная статья…», начинающем какую-либо фразу, допущена распространенная опечатка — пропуск одной буквы из удвоения «нн». Такая ошибка не будет замечена Вордом, так как в его системном словаре есть имя Даная. Не подчеркивается «Влади мир» с ошибочной вставкой пробела (из-за присутствия в системном словаре фамилии-псевдонима актрисы Марины Влади). А вот пример склеивания двух словоформ: «Изольда можно вырезать разные фигуры».

В словарях текстового редактора Word’2013 имеются имена Анджела и Анжела, Екатерина и Катерина, Наталия и Наталья (не всегда чиновники признают тождественность двух последних имен, что доставляет много хлопот их обладательницам), Дмитрий и Димитрий, Фёдор, Федор и Феодор. Имя собственное «Филип» с одной буквой «п» (наверное, имелся в виду давно умерший киноактер Жерар Филип) лучше удалить из системного словаря. Но если в тексте встретилось «Филипович» или «Филипов», то подсказка-2013 резонно предлагает дополнить их второй буквой «п», хотя написание в документах имен, отчеств, а особенно фамилий не всегда согласуется с нормой.

Спеллер-2013 считает правильными формы Валерьевич и Валериевич, Геннадьевна и Геннадиевна, а также некоторые другие подобные пары. Однако не всегда, к сожалению, такие варианты написания отчеств в разных документах у нас признаются тождественными.

Наряду с нормативной формой отчества Никитич текстовый редактор Word’2013 пропускает без замечаний и вариант «Никитович», который отсутствует в «Списке личных имен» словаря [5], а также не значится и в приложении к словарю Зализняка (см. [1, с. 740]). Для просторечных форм Ильинишна, Кузьминишна, Фоминишна и Никитишна (от мужских имен, оканчивающихся на «а» или «я») подсказка-2013 среди прочих вариантов предлагает нормативное написание через букву «ч». Однако спеллер пока еще не находит в своих системных словарях отчеств Саввична и Лукинична (а тем более «Саввишна» и «Лукинишна»), хотя имена Савва и Лука уже начинают опять входить в моду.

До нашей «перестройки» для Владимира Ильича Ленина насаждалось исключение в склонении его отчества. Требовалось писать «Ильичём» («Ильичем»). (В Москве даже в настоящее время существует название станции метро «Площадь Ильича»). По правилам следует писать «ИльичОм», что и предлагается среди прочих вариантов подсказкой-2013.

Для сокращенной просторечной формы отчества Васильич подсказка выдает среди других вариантов «Вас Ильич», но полного варианта отчества не может предложить. Имеющаяся в системном словаре более официальная форма «Васильевич» длиннее на «целых» две буквы, и спеллер не находит ее после всех буквенных замен. А уж тем более не находится и подчеркивается красным просторечная форма Иваныч (еще сильнее отличающаяся от канонической формы Иванович). Подобные сокращенные формы отчества выполняют функцию неофициальной идентификации немолодого, как правило, человека и часто употребляются без имени и фамилии или только с именем, но без фамилии.

Может быть, системный словарь стоит дополнить некоторыми (не всеми) часто встречающимися в художественной прозе и просто в переписке вариантами отчеств? Но тогда при компьютерной проверке текстов желательно было бы выдавать сообщение, что данная форма — просторечная. В Word’овских системных словарях отсутствуют такие разговорные формы, как Николавна, Тимофевна и Сергевна. Но полная форма таких отчеств длиннее всего на одну букву. Пропуск буквы — довольно вероятная опечатка, которую спеллер не выявит, если системные словари будут содержать эти краткие формы.

В «Списке личных имен» словаря [5] имеются следующие варианты отчеств: Вячеславович и Вячеславич, Вячеславовна и Вячеславна, Ярославовна и Ярославна (а также другие подобные пары от имен, оканчивающихся на «слав»). Но спеллер-2013 подчеркивает красным «Вячеславич», «Вячеславна» и почему-то официальное отчество Ярославовна, но не «Ярославна» (очевидно, благодаря «Слову о полку Игореве»). Для отчества Ярославовна подсказка-2013 предлагает единственный вариант «исправления» — «Ярослав овна». В словаре Зализняка читаем [1, с. 739]: «<…> от данного имени отчества образуются по модели: Вячеславич, Вячеславна. Наряду с этим в официальных документах возможен также и не соответствующий реальному узусу искусственный вариант, построенный по общему правилу: Вячеславович, Вячеславовна».

Имена собственные имеют свои особенности в склонении («лошадь под Петей РостовЫм», но «под городом РостовОм Великим»). Мы можем, к примеру, пофантазировать о гражданине Немеце, который якобы страдает от любви к девушке ЛюбОви. А как склонять фамилию Трутень: «у гражданина Трутня» или «у Трутеня»? Приходится спрашивать мнение ее владельца. В приложении к словарю Зализняка имеются следующие (сибирские?) фамилии: Седых, Кручёных и Черных [1, с. 779]. Указывается, что они не склоняются — причем не только в случаях принадлежности женщинам, но для мужского пола тоже (таково исключение из правила о склонении мужских фамилий).

Если набрать «Хрущов», «Горбачов», «Ельцын», «Солженицин» (возможно, существуют не очень знаменитые люди с фамилиями в таком написании), то Word’2013 подчеркнет эти слова красным, а подсказка предложит написание Хрущёв (и Хрущев), Горбачёв (и Горбачев), Ельцин и Солженицын. Но нами обнаружен странный факт. Фамилия Бочкарев спеллером пропускается без замечаний, а «Бочкарёв» при этом почему-то подчеркивается красным (среди вариантов подсказки-2013 есть разбиение «Бочка рёв»).

Не всем известно, что литературный псевдоним американского писателя О. Генрипишется через точку, а не через апостроф [1, с. 757]. Однако во внутреннем словаре имен собственных вордовского текстового редактора имеется словарная единица «О'Генри».

Рассмотрим пример специально придуманной фразы (с пропуском буквы «й»): «Придется лопато копать». Здесь слово с опечаткой «лопато» подчеркивается красным как ненайденное. Но фразу «Лопато придется копать» Word’2013 пропускает без замечаний. Причина — присутствие в системном словаре фамилии Лопато (смотрим в Википедии: «Георгий Павлович Лопато был главным конструктором первой ЭВМ, разработанной в СКБ завода им. Г. К. Орджоникидзе»). Если какой-нибудь обладатель достаточно распространенной фамилии Заец приобретет широкую известность в СМИ, то эта фамилия, возможно, будет включена в системный словарь следующей версии Ворда. И тогда соответствующая ошибка — написание слова «Заяц» через «е» (что, между прочим, предлагалось некоторыми лингвистами для упрощения правил правописания) в начале фразы, в заголовке или в качестве имени персонажа какого-либо художественного произведения — при компьютерной проверке текстов не будет выявляться.

В реальности существует много фамилий с разнообразными ошибками, но они исправлению не подлежат, потому что «так написано в паспорте». Вот всего один пример реальной фамилии: Щастливый (такое написание прилагательного можно встретить в старинных текстах, но оно противоречит современным правилам). Подсказка-2013 после замен букв выдает единственный вариант исправления этой фамилии: «Растлевай»!

В текстах на русском языке можно встретить распространенную армянскую фамилию Мкртчян — с пятью согласными подряд и не согласующуюся с усвоенным нами еще в школьные годы правилом, которое требует: «ча», «ща» пиши через «а».

Не так давно в Северной Корее появился новый лидер Ким Чен Ын. Где здесь фамилия, не очень нам понятно. Фамилии некоторых представителей северных народов России тоже могут начинаться с буквы Ы. В книге Владимира Андреевича Успенского [6, с. 543] приводится фамилия Ышыкдемир (хотя есть правило русской орфографии: «жи», «ши» пиши через «и»). Кстати, «ши» спеллером-2013 не подчеркивается. Это слово, отсутствующее в словаре [1], в словаре [5] приводится с толкованием «форма китайского стиха». О перегруженности вордовских системных словарей низкочастотными словами, нередко мешающими спеллеру выявлять ошибки и опечатки, мы писали в работах [3; 4].

В марте 2014 года В. В. Жириновский высказал свое мнение о букве «ы» (http://ria.ru/society/20140312/999111770.html#ixzz3eoeu3qJa): «Убрать эту букву гадкую, это азиатчина, нас за это не любят в Европе… Это от монгол [sic!] к нам пришло, ни в одном европейском языке буквы «ы» нет. Гортанный звук, это звери так говорят: «ы-ы». «И» — всё, достаточно». (Без комментариев. — Э. Л.)

Теперь перейдем к другим интересным фактам. После принятия нового закона в Латвии все Пышкины стали Пискиными, а Шишкины — Сискиными (разумеется, в результате написания их фамилий по правилам латышского языка). Наши СМИ некоторое время назад писали, что в Китае фамилии лояльных к их стране иностранцев составляют из иероглифов, обозначающих приятные понятия, а фамилии неугодных разбивают на иероглифы, обозначающие всякие «нехорошие» вещи и явления.

Из всего вышеизложенного можно сделать следующие выводы. Чем «богаче» системный словарь автокорректора, тем больше ошибок при компьютерной проверке текстов пропускается; чем он беднее, тем больше «ложных тревог». С одной стороны, желательно, чтобы системные словари текстовых редакторов пополнялись новыми словами, в том числе именами, отчествами и фамилиями. С другой стороны, должны быть выявлены низкочастотные имена собственные, которые могут совпасть с искажениями (в результате наиболее вероятных ошибок и опечаток) достаточно употребительных словоформ и словосочетаний, набранных с прописной буквы. Такие «подводные камни», которые вдобавок могут «вылезать» в списках рекомендуемых вариантов исправления, желательно либо удалять из системных словарей, либо снабжать их особыми пометами и предупреждать о них пользователя с помощью программы-«подсказки».

 

Литература:

 

1.         Зализняк А. А. Грамматический словарь русского языка: Словоизменение. Ок. 110 000 слов. — 4-е изд., испр. и доп. — М.: «Русские словари», 2003. — 800 с.

2.         Зубкова Л. И. Своеобразие и типы антропонимической коннотации // Филологические науки. — 2009. — № 1. — С. 65–73.

3.         Лавошникова Э. К. Компьютерная коррекция орфографии и разночтения в словарях: Возможны варианты? // Филоlogos. — 2015. — № 24 (1). — С. 49–54.

4.         Лавошникова Э. К. MS Word: Тестирование проверщика правописания и причины пропуска ошибок // Филологические науки в России и за рубежом: материалы III междунар. науч. конф. (г. Санкт-Петербург, июль 2015 г.). — СПб.: Свое издательство, 2015. — С. 125–127.

5.         Русский орфографический словарь: около 180 000 слов / Российская академия наук. Институт русского языка им. В. В. Виноградова / О. Е. Иванова, В. В. Лопатин (отв. ред.), И. В. Нечаева, Л. К. Чельцова. — 2-е изд., испр. и доп. — М., 2005. — 960 с.

6.         Успенский В. А. Труды по НЕматематике. 2-е изд., испр. и доп.: В 5 кн. Книга 3. Языкознание. — М.: ОГИ: Фонд «Математические этюды», 2013. — 711 с.

Основные термины (генерируются автоматически): имя, системный словарь, текстовой редактор, словарь, фамилия, компьютерная проверка текстов, буква, отчество, пропуск буквы, русский язык.


Ключевые слова

Личные имена, , автокорректор, спеллер, имена собственные, компьютерная коррекция правописания, фамилии, текстовый редактор, Word 2013

Похожие статьи

Стереотипы ошибок правописания и текстовые редакторы MS Word

Обсуждается проблематика компьютерной проверки правописания и психологические причины возникновения неслучайных орфографических ошибок. Даются многочисленные примеры «популярных» искажений слов, встречающихся не только у детей, но даже у достаточно о...

Текстовый редактор Word и иноязычные заимствования в словарях

В статье приводятся многочисленные примеры различающегося написания слов иноязычного происхождения в современных словарях, изданных в XXI веке. Некоторые рекомендации этих словарей расходятся с существующей практикой выбора пишущими того или иного на...

Имена собственные города Железногорска и их передача при переводе

Работа посвящена способам передачи имён собственных при переводе текстов на английский язык (на примере онимов города Железногорска). Рассмотрены трудности, возникающие при переводе (существующие варианты названий одних и тех же объектов вызывают пут...

Типология орфографических ошибок в письменной речи школьников

В статье представлен анализ орфографических ошибок в письменной связной речи учащихся 8 класса. Авторами статьи предпринята попытка классификации ошибок (фонетические, лексические, морфологические, грамматические, ошибки на стыке морфологии и синтакс...

О некоторых особенностях русско-персидского и персидско-русского перевода

Cтатья описывает основные навыки и стратегии, которыми начинающие переводчики должны овладевать в повседневной практике в ходе выполнения заданий по переводу. Исследование лингвистов предлагают субнавыки и стратегии, чтобы помочь новичкам твердо вста...

Компьютерная модель для лабораторной работы «Выбор оптимальной траектории движения транспортного робота с использованием задачи о коммивояжере»

Основная задача работы — синтез виртуальной модели для нахождения оптимального пути робота в заданном многопараметрическом пространстве. Цель — постановка компьютерной лабораторной работы, связанной с решением задач линейного и дискретного программир...

Построение и исследование имитационной модели системы контроля работы студентов

Приводится имитационная модель системы контроля работы студентов, построенная в среде математического пакета Mathcad. Производятся измерения основных характеристик сервера при взаимодействии с клиентами разной функциональной толщины.

Настройка параметров Unified Bed Leveling и построение полигональной модели печатной области с последующей линейной интерполяцией для 3D-принтеров на базе Marlin

Данная статья посвящена теме взаимодействия с надстройкой автоуровня UBL в 3D-принтерах. В настоящей работе отображается процесс адаптации прошивки Marlin к работе с датчиком уровня и построению калибровочной сетки. Демонстрируется обучение системы у...

Комбинированные упражнения на уроках русского языка

Статья посвящена необходимости большей концентрации учебного материала на уроках. Комбинироваться могут различные задания по орфографии и пунктуации, правописанию и грамматике, правописанию и стилистике. Упражнения должны содействовать воспитанию реч...

Сравнительный анализ методик обработки спонтанных устных текстов о себе

В статье рассматриваются методики обработки устных спонтанных монологических текстов. Построение графов семантических связей полей в тексте производилось в ИС «Семограф». С целью выбора адекватного метода семантического анализа текста один и тот же т...

Похожие статьи

Стереотипы ошибок правописания и текстовые редакторы MS Word

Обсуждается проблематика компьютерной проверки правописания и психологические причины возникновения неслучайных орфографических ошибок. Даются многочисленные примеры «популярных» искажений слов, встречающихся не только у детей, но даже у достаточно о...

Текстовый редактор Word и иноязычные заимствования в словарях

В статье приводятся многочисленные примеры различающегося написания слов иноязычного происхождения в современных словарях, изданных в XXI веке. Некоторые рекомендации этих словарей расходятся с существующей практикой выбора пишущими того или иного на...

Имена собственные города Железногорска и их передача при переводе

Работа посвящена способам передачи имён собственных при переводе текстов на английский язык (на примере онимов города Железногорска). Рассмотрены трудности, возникающие при переводе (существующие варианты названий одних и тех же объектов вызывают пут...

Типология орфографических ошибок в письменной речи школьников

В статье представлен анализ орфографических ошибок в письменной связной речи учащихся 8 класса. Авторами статьи предпринята попытка классификации ошибок (фонетические, лексические, морфологические, грамматические, ошибки на стыке морфологии и синтакс...

О некоторых особенностях русско-персидского и персидско-русского перевода

Cтатья описывает основные навыки и стратегии, которыми начинающие переводчики должны овладевать в повседневной практике в ходе выполнения заданий по переводу. Исследование лингвистов предлагают субнавыки и стратегии, чтобы помочь новичкам твердо вста...

Компьютерная модель для лабораторной работы «Выбор оптимальной траектории движения транспортного робота с использованием задачи о коммивояжере»

Основная задача работы — синтез виртуальной модели для нахождения оптимального пути робота в заданном многопараметрическом пространстве. Цель — постановка компьютерной лабораторной работы, связанной с решением задач линейного и дискретного программир...

Построение и исследование имитационной модели системы контроля работы студентов

Приводится имитационная модель системы контроля работы студентов, построенная в среде математического пакета Mathcad. Производятся измерения основных характеристик сервера при взаимодействии с клиентами разной функциональной толщины.

Настройка параметров Unified Bed Leveling и построение полигональной модели печатной области с последующей линейной интерполяцией для 3D-принтеров на базе Marlin

Данная статья посвящена теме взаимодействия с надстройкой автоуровня UBL в 3D-принтерах. В настоящей работе отображается процесс адаптации прошивки Marlin к работе с датчиком уровня и построению калибровочной сетки. Демонстрируется обучение системы у...

Комбинированные упражнения на уроках русского языка

Статья посвящена необходимости большей концентрации учебного материала на уроках. Комбинироваться могут различные задания по орфографии и пунктуации, правописанию и грамматике, правописанию и стилистике. Упражнения должны содействовать воспитанию реч...

Сравнительный анализ методик обработки спонтанных устных текстов о себе

В статье рассматриваются методики обработки устных спонтанных монологических текстов. Построение графов семантических связей полей в тексте производилось в ИС «Семограф». С целью выбора адекватного метода семантического анализа текста один и тот же т...

Задать вопрос