Методы определения авторства рукописного текста | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 20 марта, печатный экземпляр отправим 24 марта.

Опубликовать статью в журнале

Библиографическое описание:

Инишева, Д. О. Методы определения авторства рукописного текста / Д. О. Инишева, С. В. Наумов, В. В. Прокопова, А. Б. Тельбухов. — Текст : непосредственный // Молодой ученый. — 2019. — № 18 (256). — С. 88-90. — URL: https://moluch.ru/archive/256/58718/ (дата обращения: 07.03.2021).



Введение

Задача классификации изображений является актуальной в настоящее время. Существует множество областей, где решение данной задачи востребовано, например, судебное делопроизводство или компании с повышенным требованием к безопасности.

В данной статье рассматриваются методы классификации изображений с отсканированным рукописным текстом по авторам.

Распознавание рукописных символов делится на 2 группы:

− Распознавание рукописной информации, введенной с помощью специальных сенсорных экранов (online).

− Распознавание рукописной информации с бумажных носителей (offline).

Онлайн распознавание текстов учитывает начертательные особенности человека — силы нажима, быстроты написания. В свою очередь, офлайн распознавание текста получает на вход уже готовый документ, поэтому является более сложным процессом. В данной статье рассматривается только офлайн распознавание.

Также, рассматриваются только пространственные признаки рукописного текста — это рассмотрение объекта с точки зрения структуры, выделения составляющих элементов и их взаиморасположения. Этими признаками могут быть: расстояние между словами, расстояние между буквами, левый и правый отступы. Выбор данной темы обусловлен тем, что данные признаки текста не зависят от языка, семантики или назначения документа.

В следующих пунктах сравниваются 2 метода классификации изображений: а именно, метод опорных векторов (SVM) и Сверточные Нейронные сети (CNN).

SVM (SupportVectorMachine)

Пусть имеется обучающая выборка: https://habrastorage.org/storage/habraeffect/ec/0f/ec0fd2147020136102f199d847315336.png

Метод опорных векторов строит классифицирующую функцию F в виде https://habrastorage.org/storage/habraeffect/9e/39/9e39396ca18b921d9afbef6d92607ddb.png, где https://habrastorage.org/storage/habraeffect/bc/aa/bcaa9f6be3acdb74579d883fa63c21f3.png — скалярное произведение, w — нормальный вектор к разделяющей гиперплоскости, b — вспомогательный параметр. Те объекты, для которых F(x) = 1 попадают в один класс, а объекты с F(x) = -1 — в другой. Выбор именно такой функции неслучаен: любая гиперплоскость может быть задана в виде https://habrastorage.org/storage/habraeffect/bb/77/bb77637fa821ab46507330ed645ceb33.png для некоторых w и b. Далее, мы хотим выбрать такие w и b которые максимизируют расстояние до каждого класса. Можно подсчитать, что данное расстояние равно https://habrastorage.org/storage/habraeffect/31/86/3186bd99eb78eadf2af35359b431c58e.png. Проблема нахождения максимума https://habrastorage.org/storage/habraeffect/31/86/3186bd99eb78eadf2af35359b431c58e.png эквивалентна проблеме нахождения минимума https://habrastorage.org/storage/habraeffect/05/47/0547d2ad77f3163ca1641d382a173ad2.png. Запишем все это в виде задачи оптимизации:

https://habrastorage.org/storage/habraeffect/0e/06/0e0620af2c03143d1e40db91806d375e.png

Данная задача является стандартной задачей квадратичного программирования и решается с помощью множителей Лагранжа.

CNN (Сверточные нейронные сети)

Сверточная нейронная сеть — это специальная архитектура искусственных нейронных сетей, предложенная Яном Лекуном в 1988 году и нацеленная на эффективное распознавание образов, входит в состав технологий глубокого обучения. Идея сверточных нейронных сетей заключается в чередовании сверточных слоёв и слоёв нелинейного уплотнения. Структура сети — однонаправленная, многослойная.

Когда компьютер принимает данные на вход, в данном случае данные — это отсканированные образцы почерков, то он видит массив пикселей. В зависимости от разрешения и размера изображения, например, размер массива может быть 32х32х3, где 3 — это значения каналов RGB. Каждому из этих чисел присваивается значение от 0 до 255, которое описывает интенсивность пикселя в этой точке. В качестве выхода мы требуем вектор, каждое число которого будет принадлежать диапазону от 0 до 1 и обозначать вероятность принадлежности данного объекта к каждому из классов. После этого объект будет относиться к классу с наибольшей вероятностью.

СНС пропускает изображение через серию сверточных слоев, слоев объединения и полносвязных слоёв. Основа CNN — сверточный слой. Он получает на вход матрицу пикселей, которая обрабатывается с помощью фильтров, других матриц меньшего размера. Данная операция называется сверткой. Пример свертки представлен на Рис.1.

https://habrastorage.org/webt/v9/k2/kc/v9k2kc8ng4nrhryunr3wr6l5brg.png

Рис. 1.

Обучение

Для обучения рассмотренных методов использовалась база данных IAM Handwriting Database, которая содержит формы рукописного текста, которые были отсканированы с разрешением в 300 точек на дюйм и сохранены в формате PNG c 256 градациями серого. Данные содержат 1,539 англоязычных рукописных текстов 657 различных авторов.

Оценкой классификации служат выбранная метрика — accuracy метрика. Accuracy является самой простой и понятной метрикой, она показывает отношение правильно классифицируемых объектов ко всем объектам выборки.

Результаты

SVM метод классификации показал точность 73.21 % при выборе лучших параметров путем поиска GridSearch.

CNN показал точность 89,94 %. Параметры размера и количества фильтров подбирались практически. В качестве активационных функций сверточных слоев была использована функция RELU. На выходном слое — SoftMax.

Заключение

Были рассмотрены два метода классификации изображений: SVM и CNN. Сравнивая, показатели точности этих алгоритмов на коллекциях изображений, пришли к выводу, что в среднем, Сверточные Нейронные сети работают лучше.

Литература:

  1. Christopher M. Bishop. Pattern recognition and machine learning, 2006.
  2. К. В. Воронцов. Лекции по методу опорных векторов.
  3. Л. В. Степанов. Моделирование конкуренции в условиях рынка.
Основные термины (генерируются автоматически): CNN, SVM, метод классификации изображений, рукописный текст, IAM, PNG, RELU, RGB, рукописная информация, сеть.


Похожие статьи

Применение нейронных сетей в распознавании рукописного текста

Попова В. В. Распознавание рукописного текста на китайском языке на основе ключей при помощи нейронных сетей

Основные термины (генерируются автоматически): рукописный текст, сеть, символ

искусственные нейронные сети, применение, графическая информация.

Метод распознавания шрифта текста с изображения

В настоящее время в интернете и социальных сетях прослеживается тенденция к передаче и обмену информацией с помощью цифровых изображений. В связи с этим большим спросом пользуются программы...

Обзор методов распознавания изображений | Статья в сборнике...

Свёрточная нейронная сеть (Convolutional neural network или CNN) — специальная архитектура нейронных сетей, предложенная в 1988 году и предназначенная для распознавания изображений. Архитектура вдохновлена некоторыми особенностями коры головного мозга, в...

Решение задачи бинарной классификации при помощи...

Конкретно задачу классификации изображений решают при помощи свёрточных нейронных сетей. Свёрточная нейронная сеть (англ

По состоянию на 2017 год эта функция и её модификации (Noisy ReLU, Leaky ReLU и другие) являются наиболее часто используемыми...

Анализ клавиатурного почерка в процессах аутентификации...

В статье клавиатурный почерк рассматривается в качестве одной из динамических поведенческих биометрических характеристик человека. Развитие новых моделей, методов, алгоритмов распознавания клавиатурного почерка на основе анализа существующих...

Клавиатура и шариковая ручка: борьба или союз

В статье рассматривается вопрос о возможной замене рукописного письма работой на клавиатуре. В статье содержатся сведения о влиянии письма от руки на развитие младшего школьника.

Использование нейросетевого подхода для верификации...

Распознавание и верификация рукописных подписей осуществляется с помощью искусственной нейронной сети на основе метода обратного

Высокая производительность метода нейронных сетей в задачах обработки и анализа рукописных подписей позволяет использовать его в...

Практическое применение искусственных нейронных сетей...

Это может быть кошка, рукописный текст, лицо и т. д. Такие ИНС могут применяться в различных областях, где необходимо определить объект, представленный на

Работа нейронных сетей схожа с работой памяти — они запоминают признаки, части изображений.

Математическое моделирование систем распознавания...

Предполагается, что рассматриваемые системы будет основаны на возможностях нейронных сетей.

Математическое моделирование систем распознавания изображений, содержащих текстовую информацию, на основе нейронных сетей.

Похожие статьи

Применение нейронных сетей в распознавании рукописного текста

Попова В. В. Распознавание рукописного текста на китайском языке на основе ключей при помощи нейронных сетей

Основные термины (генерируются автоматически): рукописный текст, сеть, символ

искусственные нейронные сети, применение, графическая информация.

Метод распознавания шрифта текста с изображения

В настоящее время в интернете и социальных сетях прослеживается тенденция к передаче и обмену информацией с помощью цифровых изображений. В связи с этим большим спросом пользуются программы...

Обзор методов распознавания изображений | Статья в сборнике...

Свёрточная нейронная сеть (Convolutional neural network или CNN) — специальная архитектура нейронных сетей, предложенная в 1988 году и предназначенная для распознавания изображений. Архитектура вдохновлена некоторыми особенностями коры головного мозга, в...

Решение задачи бинарной классификации при помощи...

Конкретно задачу классификации изображений решают при помощи свёрточных нейронных сетей. Свёрточная нейронная сеть (англ

По состоянию на 2017 год эта функция и её модификации (Noisy ReLU, Leaky ReLU и другие) являются наиболее часто используемыми...

Анализ клавиатурного почерка в процессах аутентификации...

В статье клавиатурный почерк рассматривается в качестве одной из динамических поведенческих биометрических характеристик человека. Развитие новых моделей, методов, алгоритмов распознавания клавиатурного почерка на основе анализа существующих...

Клавиатура и шариковая ручка: борьба или союз

В статье рассматривается вопрос о возможной замене рукописного письма работой на клавиатуре. В статье содержатся сведения о влиянии письма от руки на развитие младшего школьника.

Использование нейросетевого подхода для верификации...

Распознавание и верификация рукописных подписей осуществляется с помощью искусственной нейронной сети на основе метода обратного

Высокая производительность метода нейронных сетей в задачах обработки и анализа рукописных подписей позволяет использовать его в...

Практическое применение искусственных нейронных сетей...

Это может быть кошка, рукописный текст, лицо и т. д. Такие ИНС могут применяться в различных областях, где необходимо определить объект, представленный на

Работа нейронных сетей схожа с работой памяти — они запоминают признаки, части изображений.

Математическое моделирование систем распознавания...

Предполагается, что рассматриваемые системы будет основаны на возможностях нейронных сетей.

Математическое моделирование систем распознавания изображений, содержащих текстовую информацию, на основе нейронных сетей.

Задать вопрос