Применение нейронных сетей в распознавании рукописного текста

Исрафилов, Хидирнеби Сираждинович

На сегодняшний день в современном мире активно развивается такая область искусственного интеллекта как нейронные сети. Актуальность разработок в области нейросетей обуславливается их широкими возможностями применения в самых различных областях.

Функционирование любой системы становится намного эффективнее при помощи решения задач на основе нейронных сетей.

Нейронные сети — это раздел искусственного интеллекта, в котором для обработки сигналов используются явления, аналогичные происходящим в нейронах живых существ. Основная особенность искусственной нейронной сети состоит в параллельной обработке информации всеми звеньями. При достаточно большом количестве межнейронных связей это дает основание существенно ускорить процесс обработки информации. В большинстве случаев преобразование сигналов в режиме реального времени приобретает все более распространенную форму.

В настоящее время известно довольно обширное число областей применения искусственных нейронных сетей, в которых человеческий интеллект малоэффективен, а аналитические вычисления достаточно трудоемки и физически неадекватны.Наиболее распространенные из них: финансы, экономика, производство, медицина, военная промышленность и авиация, энергетика, научные исследования, информационные технологии, искусственный интеллект и т. д.

На сегодняшний день существует огромное количество программного обеспечения, использующего возможности технологии искусственных нейронных сетей (ИНС). Существуют универсальные программы, решающие при помощи ИНС задачи от распознавания рукописного текста до решения задач прогнозирования.

Литературный обзор

На сегодня разработано множество систем, которые демонстрируют возможности искусственных нейронных сетей, например сети, способные представлять текст фонетически, распознавать рукописные буквы.

Рукописный текст был отличным средством коммуникации и документации на протяжении тысячи лет, но в последнее время оно все чаще заменяется вводом с клавиатуры. Но, тем не менее, данное средство остается самым простым и наиболее эффективным способом по времени преобразования человеческой мысли в передаваемую форму для большинства людей во всем мире. Во времена подъема компьютерной эры, при использовании рукописного текста в вычислительных машинах было менее удобно использовать его в промышленных масштабах, но с ускоренным развитием информационных технологий, а также сенсорных устройств, более точных и быстрых камер, сканеров преобразование рукописного текста в данные понятные компьютеру стало актуальной задачей на сегодняшний день.

На данном этапе развития системы распознавания рукописного текста имеют все новые и новые горизонты для достижений в таких областях как машинный перевод, почтовые пересылки, проверки подписи, ведение повседневных заметок и т. д. Конечной целью всех систем распознавания рукописного текста является создание машин, которые смогут читать любой текст с такой же точностью распознавания, как и люди, но при этом с большей скоростью.

По данной теме исследования известно множество публикаций. В публикации Чанчиковой Е. В. [1] рассматриваются сверточные нейронные сети, которые позволяют устранить недостатки полносвязных нейронных сетей, при распознавании рукописных символов. На данный момент сверточные сети являются наилучшим алгоритмом распознавания символов с искажениями, например, так называемых CAPTCHA тестов. Для решения такой задачи необходимо использовать многомодульную систему распознавания, которая использует сверточные сети, классификатор Витерби и графотрансформирующую сеть для определения отдельных символов на изображении.

В статье Князева А. В. [2] рассматривается задача распознавания слитного рукописного текста, а также обсуждаются различные подходы к решению данной задачи, отмечаются достоинства и недостатки рассматриваемых подходов. Предлагается также комбинированный подход к распознаванию слитно написанного рукописного слова, включающего в себя процедуру разбиения, основанную на анализе структуры слова, и процедуру распознавания, основанную на использовании нейронной сети.

В публикации Поповой В. В. [3] рассматривается задача распознавания текста на китайском языке на основе ключей с использованием нейронных сетей. В ней рассмотрены основные этапы процесса распознавания рукописного текста, также приведены результаты исследования. Разработанный в данном исследовании алгоритм производит офлайн распознавание рукописного текста на основе разбиения иероглифа на ключи и распознавании ключей с помощью неокогнитрона. Разработанное в результате данной работы приложение позволит значительно упростить работу переводчиков, а также поможет при изучении китайского языка.

Свойства почерка ипроблемы его распознавания

Рукописный текст содержит алфавит букв, разделительные знаки. Фундаментальное свойство текста, которое делает возможным общение состоит в том что отличия между разными символами более значительны, чем отличия между разными написаниями того же самого символа.

Почерк состоит из временной последовательности штрихов, то есть движения пера от касания к бумаге до его поднятия. Символы рукописного текста, как правило, формируются последовательно, один символ завершается перед началом следующего, а буквы следуют определенному пространственному порядку, как пример слева направо. Но есть также и исключения — например, в английском языке точки над «i» и пересечения на «t» как правило, задерживаются. Сначала пишется основная часть слова, а потом слово завершается написанием точек или же запятых.

У всех букв есть статические и динамические свойства. Статистические отличия могут состоять, например, в размере или форме символа. Отличия в динамике могут состоять в количестве штрихов и их порядке. Английский язык может иметь более значительные изменения направления штриха, чем китайский. В английском языке также больше вариантов в присутствии или отсутствии повторных штрихов. Повторный штрих — это штрих в месте, где что-то уже написано, обычно он делается, чтобы избежать поднимания пера ручки.

Существует множество задач распознавания образов для рукописного текста и рисования на планшетах. Они охватывают отличия языковых символов, формул, например таких, которые используются при редактировании. Проблемы распознавания символов языка включают в себя, например, большой алфавит китайских иероглифов, японские хирагану и катакану, арабские рукописные алфавиты и шрифты в западных языках. Но при этом наибольшие проблемы в распознавании рукописного текста — это те, что вызывают трудности у людей при попытке прочитать даже собственный почерк.

Во-первых, тот факт, что большинство символов могут быть написаны по-разному. Например, на рис.1 приведены разные возможные стили письма на китайском языке [4], которые передовая система сможет различить и распознать. Также редко можно встретить двух людей с одинаковым почерком. Эта задача связана с различием шрифтов в классической задаче распознавания текста. Но в отличие от шрифтов, каждая буква в тексте одного человека может иметь совсем иной стиль в зависимости от контекста, в котором осуществляется написание окружающих букв и многих других факторов.

Рис. 1 Возможные стили письма на китайском языке

Чтобы справиться с данной проблемой, множество систем включают в себя компонент, который сам обучается получаемому почерку, различает пользователей, и применяет уже эти данные при принятии решения.

Во-вторых, несколько символов часто выглядят одинаково, либо практически совсем не отличаются в почерке одного человека. Более того, некоторые буквы могут быть написаны неаккуратно, и объективно быть похожими при этом на совершенно другие буквы. Эта сложность обычно преодолевается путем добавления системы распознавания текста и использованием словаря, в котором программа может найти сомнительное слово, и таким образом можно избежать неоднозначности.

Наиболее универсальным подходом к решению задачи о распознавании рукописного текста является нейросетевой. Нейронная сеть — это вычислительная структура, которая состоит из искусственных нейронов — абстракции нервных клеток человека. Созданные структуры, имитирующие человеческий мозг широко используются в распознавании образов, обработки данных и задачах аппроксимации функций. Основные преимущества нейронных сетей состоят в способности обучаться самостоятельно и автоматически на основе выборок, быть продуктивными на на зашумленных данных, возможностью параллельной реализации и быть эффективными инструментами для обработки больших баз данных. Нейронные сети широко используются в рассматриваемой области. Также были достигнуты значительные успехи и успешные результаты в частности в распознавании рукописных цифр.

Самой популярной и широко исследуемой и применяемой нейронной сетью является многослойный перцептрон — Multi-LevelPerceptron (MLP). Такая структура, которая изучается при помощи обратного расширения ошибки, является одной из наиболее популярных и универсальных форм нейронных сетей-классификаторов и одной из наиболее часто используемых для распознавания рукописного текста [5]. В этом подходе существует много разных методов. Самыми популярными можно назвать нечеткие нейронные сети [6], сеть Хэмминга [7], сеть Хопфилда [8], самоорганизующиеся карты [9] и многие другие.

Анализ методов решения задачи при распознавании рукописных символов

На сегодняшний день разработано много систем, которые демонстрируют возможности искусственных нейронных сетей: сети способные представлять текст фонетически, распознавать рукописные буквы, сжимать изображения. Большинство мощных сетей, которые ориентированы на распознавание символов и звуков берут за основу принцип обратного расширения, который является систематическим подходом для обучения многослойных сетей. Нейронные сети, которые работают по вышеуказанному принципу пришли на смену системам, которые состояли из одного слоя искусственных нейронов и использовались для широкого класса задач, в том числе для организации искусственного зрения. Однако такие системы имеют и существенные недостатки. Прежде всего, это то, что нет гарантии, что сеть может быть обучена за конечное время.

Каждый из разработанных алгоритмов обучения сетей имеет свои неоспоримые преимущества, но общим недостатком является ограничение в своих возможностях «обучаться» и «вспоминать».

При обучении сети входное множество сигналов рассматривается как вектор. Обучение осуществляется путем последовательного представления входных векторов с одновременной настройкой весов соответственно определенной процедуре. В процессе обучения весы сети постепенно становятся такими, что каждый входной вектор производит выходной вектор. Обучаемые алгоритмы могут быть классифицированы как алгоритмы обучения без учителя и с учителем [10,11].

В первом случае при представлении данных входных символов сеть самоорганизуется при помощи настройки своих весов в соответствии с определенным алгоритмом. Вследствие отсутствия указания наперед определенного выхода, в процессе обучения результаты не предусмотрены с точки определения возбуждающих символов для конкретных нейронов. При этом сеть организуется в форме, которая отражает существенные характеристики учебного набора. Как пример, входные символы могут быть классифицированы соответственно степени их подобности таким образом, что символы одного класса будут активировать тот же выходной нейрон.

Приведенные методы обучения сети допускают, что известны только входные векторы, а на их основе сеть учится предоставлять лучшие значения исходной функции.

Во втором случае существует учитель, который предоставляет свои входные символы сети, сравнивает результирующие исходы с теми которые необходимы, а потом настраивает весы сети таким образом, чтобы уменьшить расхождения.

Методы обучения сети с учителем предусматривают, что существуют пары «вход-выход», то есть известны значение входных векторов, и значения выходных векторов, которые им соответствуют.

Таким образом, нейронная сеть, которая обучается с учителем, является более надежной, поскольку при определенном входном сигнале на выходе формируется соответствующее выходное значение.

Обучая сеть распознавать новые символы, довольно часто уничтожаются или изменяются результаты предыдущего обучения. Если существует только фиксированный набор учебных векторов, они могут представляться при обучении циклически. В сетях с обратным расширением, обучающие векторы подаются на вход сети последовательно, до тех пор, пока сеть «не научиться» всему входящему набору. Но при этом вполне обученная сеть должна запоминать новый обучаемый вектор, и он может изменить весы настолько, что необходимо будет полное переобучение сети.

Заключение

В данной работе был произведен анализ методов решения задачи при распознавании рукописных символов, а также рассмотрены основные свойства почерка и определены проблемы его распознавания при помощи нейронных сетей.

В ходе проведенного анализа были выявлены основные преимущества и недостатки нейронных сетей с «учителем» и сетей «без учителя».

Важной частью любой системы распознавания символов является подсистема сегментации. Различие написанных слов в изображении и выделение букв в словах является довольно трудоемкой задачей, которая требует немало внимания, чем собственно сам процесс распознавания. Еще более важной является система выделения признаков, которая должна найти уникальные свойства выделенных букв и отбросить не нужные буквы.

Современная машина распознавания рукописного текста не может существовать без словаря и подсистемы распознавания контекста. Они позволяют машине использовать внешние данные для решения конфликтных ситуаций, например определение отличия между малыми и большими буквами или понимание неясно написанного знака.

Учитывая многочисленные достижения в этой отрасли, не удивительно, что в последнее время быстрые и точные программные системы распознавания рукописного текста были применены в коммерческих продуктах, например, таких как мобильное приложение GoogleTranslate, MicrosoftSurface.

В будущем следует ожидать на еще более широкое применение таких средств.

Литература:

Чанчикова Е. В. Использование искусственных нейронных сетей для распознавания рукописных символов // Актуальные проблемы авиации и космонавтики, 2010
Князев А. В. Распознавание слитного рукописного текста // Вестник МЭИ, 2013
Попова В. В. Распознавание рукописного текста на китайском языке на основе ключей при помощи нейронных сетей // Информационные технологии XXI века, 2013
Srihari S. N., Yang X., Ball G. R. Offline Chinese Handwriting Recognition: A Survey. Frontiers of Computer Science in China, 1(2), 2007.
Zhang G. P.: Neural networks for classification: a survey. IEEE Transactions on Systems, Man, and Cybernetics, 2000 — Part C: Applications and Reviews, 30(4):451–462.
Gomez Sanchez E., Dimitriadis Y. A., Mas M. S.-R., Garcia P. S., Cano Izquierdo J. M., Coronado J. L.: On-Line Character Analysis and Recognition with Fuzzy Neural Networks. Intelligent Automation and Soft Computing, Vol. 7, No. 3, pp. 161–162, 1998.
Verma B., Blumenstein M., Kulkarni S.: Recent Achievements in Off-Line Handwriting Recognition Systems.
Ling, M. Lizaraga, N. Gomes, A. Koerich: A prototype for brazilian bankcheck recognition. In S.Impedovo et al, editor, International Journal, World Scientific 1997, pp. 549–569.
Kittler J., Hatef M., Duin R., Matas J.: On combining classifiers. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(3):226–239.
Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика: Пер. на русский язык / Ю. А. Зуев, В. А. Точенов, 1992. — 184 с.
Долгова, Е.В., Курушин Д. С. Компьютерные нейросетевые технологии, Пермь, ПГТУ, 2008.

Применение нейронных сетей в распознавании рукописного текста

Библиографическое описание:

Похожие статьи

Похожие статьи

Ответим на ваш вопрос!