Классификация изображений с помощью сверточных нейронных сетей

Свирина Александра Руслановна; Орлов Сергей Павлович

В статье автор исследует использование сверточных сетей для детектирования изображений.

Ключевые слова: интеллектуальная система для компьютерного зрения, искусственный интеллект, сверточная нейронная сеть, глубокое обучение, автопилотирование автомобиля, дорожные знаки, детектирование объектов на изображениях.

Применение сверточных нейронных сетей используется для управления беспилотными транспортными средствами. Интеграция систем с использованием искусственного интеллекта в автомобильные транспортные средства позволяет обрабатывать большие объемы данных, полученные с различных датчиков и камер, а также обеспечивать безопасное и эффективное движение без человеческого вмешательства. Такая интеграция не только повышает уровень безопасности дорожного движения за счет снижения числа происшествий, но и открывает новые возможности для развития индустрии автотранспорта.

Специфика работы глубокого обучения, направленного на развитие искусственных нейронных сетей с множеством слоев, привлекает внимание специалистов широкой аудитории. Это направление машинного обучения, которое стремится к созданию более сложных и адаптивных моделей, способных решать задачи, требующие высокой степени точности и гибкости. Глубокое обучение активно обсуждается в научных кругах и медиа, подчеркивая его значимость в контексте будущего развития технологий [1].

В последние годы глубокое обучение стало фокусом интереса многих исследователей и разработчиков, открывая бесконечные горизонты возможностей. Этот процесс непрерывного расширения представлений о том, чего можно достичь с помощью искусственного интеллекта, сопровождается постоянным открытием новых областей применения и совершенствованием существующих методик. Научные достижения часто следуют определенной траектории развития, начиная с быстрого взлета, переходящего через период стабилизации, когда достигнуты первые значительные рубежи, и заканчивая медленным, но уверенным продвижением вперед, когда исследования сталкиваются с новыми вызовами. В 2017 году глубокое обучение находилось на пороге этого пути, указывая на то, что ближайшее будущее будет богато новыми открытиями и улучшениями [2].

Исключительная эффективность сверточных нейронных сетей в сравнении с традиционными методами делает их незаменимыми инструментами в сфере компьютерного зрения, позволяя достигать рекордных результатов в задачах распознавания и классификации изображений. В рамках данного материала будет подробно рассмотрено использование сверточных слоев как мощных средств для выделения и анализа признаков в процессе классификации изображений, что позволит открыть новые возможности для автоматизации и оптимизации процесса обработки изображений.

Различные архитектуры многослойных нейронных сетей, такие как глубокие сверточные нейронные сети (CNN), применяются в построении иерархических структур данных. Эти структуры позволяют агрегировать базовые признаки на более высоких уровнях абстракции, что критически важно для разработки сложных систем искусственного интеллекта и машинного обучения. Например, в области обработки изображений, первоначальные слои CNN способны идентифицировать простые признаки, например края и точки, которые затем интегрируются для формирования усложненных и информативных характеристик. Это процесс не только обогащает данные, но и позволяет модели лучше понимать контекст и взаимосвязи между различными элементами изображения. В результате, высокоуровневые признаки, получаемые через такой подход, способствуют созданию более точных и адаптивных решений в различных областях применения, от компьютерного зрения до анализа больших объемов данных.

Структура CNN, включающая последовательность сверточных слоев, слоев подвыборки и завершается одним или несколькими полносвязными слоями. Это обеспечивает эффективное и гибкое решение для выполнения задач классификации и распознавания образов. Полносвязные слои, функционирующие как многослойные персептроны, играют важную роль в интерпретации и классификации данных, поскольку они способны устанавливать сложные связи между входными и выходными данными, используя специфические веса для каждого соединения. Сверточный и объединяющий слой с тремя входными каналами и четырехмерным тензором ядра проиллюстрирован на рис. 1.

Демонстрация слоев

Рис. 1. Демонстрация слоев

Таким образом, применение CNN в рамках профессиональной интеграции открывает новые возможности для создания инновационных решений, основанных на глубоком понимании и анализе данных [1]. Контейнер для чисел принято называть тензором, поскольку это обобщение матриц с произвольным количеством измерений.

Профессиональная интеграция в области искусственного интеллекта и машинного обучения подчеркивает значимость использования сверточных нейронных сетей (CNN) для решения задач классификации объектов на изображениях, особенно когда речь идет о распознавании сложных образов. Эффективность CNN основывается на двух ключевых характеристиках изображений: локальности и повторяемости образов. Эти свойства позволяют CNN эффективно извлекать и использовать важные признаки из изображений, что делает их идеальным инструментом для задач, требующих высокой степени детализации и учета контекста.

Однако для достижения наилучших результатов в распознавании образов, необходимо тщательно спроектировать и обучить сеть. Процесс проектирования включает в себя выбор архитектуры сети, определение количества слоев и их типа, а также настройку гиперпараметров. Обучение сети требует тщательно подобранных данных, которые должны быть представлены в виде тренировочного и проверочного наборов. Качество и объем этих наборов данных имеют непосредственное влияние на способность сети к обучению и генерации точных прогнозов.

Таким образом, была успешно разработана и реализована программа на языке Python, предназначенная для детектирования дорожных знаков на основе анализа изображений. Для обучения и тестирования программы был использован открытый набор данных, включающий в себя изображения 43 различных дорожных знаков, что обеспечивает высокую степень универсальности и точности распознавания. Эта задача классификации была решена с применением методов компьютерного зрения и сверточных нейронных сетей, что позволяет достигать высоких результатов в автоматической идентификации и классификации дорожных знаков, улучшая тем самым безопасность дорожного движения и эффективность управления дорожным движением. На рисунке 2 представлены примеры изображений из набора данных, который использовался для детектирования.

Примеры изображений дорожных знаков

Рис. 2. Примеры изображений дорожных знаков

С помощью библиотеки Keras была создана последовательная модель класса Sequential, в котором слои нейронной сети идут последовательно. (рис. 3)

Создание последовательной модели

Рис. 3. Создание последовательной модели

Далее для обучения модели сверточной нейронной сети, ранее сформированный набор данных был разделен на две выборки обучающую и проверочную в соотношении 80 % к 20 %, что обеспечило оптимальное распределение данных для обучения модели и проверки ее способности к правильному классифицированию дорожных знаков. Для наглядного анализа эффективности обучения и корректировки параметров модели, были подготовлены графики, отражающие изменение точности обучения и уровня потерь в зависимости от количества пройденных эпох (рис. 4).

Графики

Рис. 4. Графики

Заключение.

В итоге, была успешно спроектирована и реализована сверточная нейронная сеть, способная решать задачу классификации дорожных знаков с высокой точностью. Этот пример демонстрирует, как профессиональная интеграция может быть применена для создания эффективных решений в области искусственного интеллекта и машинного обучения. Использование CNN позволяет модели эффективно извлекать и классифицировать признаки на изображениях, что является ключевым фактором для успешного решения задачи обнаружения дорожных знаков. Важность разделения данных на обучающий и тестовый поднаборы подчеркивает необходимость валидации модели на новых данных, что гарантирует её способность к обобщению.

Литература:

Рашка, Себастьян, Мирджалили, Вахид. Python и машинное обучение: машинное и глубокое обучение с использованием Python, scikit-learn и TensorFlow 2, 3-е изд.: Пер. с англ. — СПб.: ООО «Диалектика», 2020. — 848 с.: ил. — Парал. тит. англ. ISBN 978–5–907203–57–0 (рус.)
Шолле Франсуа. Глубокое обучение на Python. — СПб.: Питер, 2018. — 400 с.: ил. — (Серия «Библиотека программиста»). ISBN 978–5–4461–0770–4
Хайкин, Саймон. Нейронные сети: полный курс, 2-е издание. — М.: «Вильямс», 2006. — 1104 с.
Бредихин Арсентий Игоревич Алгоритмы обучения сверточных нейронных сетей // Вестник ЮГУ. 2019. № 1 (52). URL: https://cyberleninka.ru/article/n/algoritmy-obucheniya-svertochnyh-neyronnyh-setey (дата обращения: 05.06.2024).
Brkic, K. An overview of traffic sign detection methods // Department of Electronics, Microelectronics, Computer and Intelligent Systems Faculty of Electrical Engineering and Computing. — Vol. 3. P. 10000.

Молодой учёный

Классификация изображений с помощью сверточных нейронных сетей

Классификация изображений с помощью сверточных нейронных сетей

Молодой учёный