К задаче распознавания образов без учителя в технической диагностике | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 27 апреля, печатный экземпляр отправим 1 мая.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №18 (77) ноябрь-1 2014 г.

Дата публикации: 26.10.2014

Статья просмотрена: 452 раза

Библиографическое описание:

Кулбараков, М. А. К задаче распознавания образов без учителя в технической диагностике / М. А. Кулбараков. — Текст : непосредственный // Молодой ученый. — 2014. — № 18 (77). — С. 55-57. — URL: https://moluch.ru/archive/77/13273/ (дата обращения: 16.04.2024).

Ключевые слова: распознавание образов без учителя, техническая диагностика, таксономия, классификация.

 

Введение. Методы кластеризации являются одними из наиболее востребованных при решении задач анализа многомерных данных. Группировка объектов по схожести их свойств упрощает решение многих практических задач. В таких задачах решающую роль играют возможности кластеризации для формализации значений признаков, определения степени сходства объектов.

Теория распознавания образов является основным методологическим комплексом для анализа данных об объектах исследования.

В теории распознавания образов выделяют два основных подхода: распознавание образов (классификация) с учителем и без учителя (самообучение). Группировка объектов по похожести их свойств («самообучение», «автоматическая классификация», «кластеризация», «таксономия») упрощает решение многих практических задач анализа данных. Так, если объекты описаны свойствами, которые влияют на общую оценку их качества, то в одну группу (таксон, класс, кластер) будут собраны объекты, обладающие приблизительно одинаковым качеством. И вместо того, чтобы хранить в памяти ЭВМ данные обо всех объектах, достаточно сохранить описание типичного представителя каждого таксона (прецедента), перечислить номера объектов, входящих в данный таксон, и указать максимальное отклонение каждого свойства от его среднего значения для данного таксона. Этой информации обычно бывает достаточно для дальнейшего анализа изучаемого множества объектов [1].

Несмотря на существование множества алгоритмов группировки данных, при реализации большинства из них возникают некоторые трудности. При решении практических задач как правило выбирается критерий качества (в один кластер должны собираться объекты, похожие по своим характеристикам), но не указывается, для какой конкретной цели эта группировка делается. Помимо того, что кластеры должны объединять похожие элементы, количество кластеров еще должно быть минимальным и достаточным для принятия правильных решений на следующем более высоком уровне системы. Окончательный вариант разбиения исследуемых объектов на группы решающим образом зависит от выбора метрики или меры близости объектов. В каждой конкретной задаче этот выбор производится по-своему, с учетом главных целей исследования, физической и статистической природы используемой информации и т. п. Если гипотеза о типе группировок неверна, то нацеленность алгоритмов кластерного анализа на определенную структуру группировок может приводить к неоптимальным или даже неправильным результатам.

Общий вид алгоритма классификации. Применение методов распознавания образов предполагает существование исходных эмпирических данных об изучаемом множестве объектов в системе их признаков. В общем виде они могут быть представлены в виде матрицы W размерностью N n, где N — количество объектов (экспериментальных точек), а n — количество признаков (свойств, характеристик и факторов), характеризующих данное множество объектов.

В таком случае каждый объект геометрически можно представить в виде точки в n-мерном пространстве признаков, а под классом будем понимать множество объектов, близких между собой в некотором смысле. «Мера близости» между объектами одного класса при этом больше, чем между объектами разных классов. Суть понятия «мера близости» основана на «гипотезе компактности» и заключается в следующем: объекты одного и того же класса в пространстве признаков образуют геометрически близкие точки, т. е. компактные «сгустки». Большинство подходов в распознавании образов основано именно на этой гипотезе.

В настоящее время существует ряд алгоритмов и программных комплексов, позволяющих решать разнообразные типичные задачи классификации. В данном случае рассматривается следующая задача: имеется набор (база) данных, содержащий сведения о качестве технических изделиях [2]. Необходимо отделить изделия, которые могут быть отнесены к группе высококачественных, от среднего и более низкого качества.

Задача классификации в общем виде. Пусть имеется совокупность объектов О1, О2,..,Оn, заданных в виде матрицы  (p — количество входных параметров (признаков), n — объем выборки изделий). Требуется разбить их на группы объектов, в каком-то смысле близких между собой. Таким образом, задача классификации заключается в разбиении пространства признаков на непересекающиеся области.

Далее рассмотрим некоторые алгоритмы, предлагаемые (разработанные) для группировки данных в случае, когда исходное число классов неизвестно.

Алгоритм кристаллизации. Пусть имеется выборка наблюдений  многомерной переменной , где m — размерность переменной x,  — объем выборки. Необходимо выделить из имеющейся выборки наблюдений классы. Количество классов неизвестно. На Рис.1 представлен возможный вариант расположения точек в пространстве для случая m=2.

Рис.1. Взаимное расположение точек выборки в пространстве состояний

 

Предложен следующий алгоритм классификации.

1.    Найти расстояния между всеми точками выборки наблюдений . Многомерное расстояние  между двумя многомерными точками  и  вычисляется как

. (1)

При этом , . Таким образом, формируется выборка расстояний между точками, объем которой равен .

2.    Задать расстояние δ. Расстояние δ выбирается экспериментальным путем на основании анализа расстояний r между точками выборки.

3.    Из имеющейся выборки наблюдений произвольно выбрать начальную точку .

4.    Найти все точки, удовлетворяющие условию

. (2)

Делается предположение о том, что точки, удовлетворяющие условию (2) лежат с начальной точкой  в одном классе, т. е. являются ее «соседями» по классу.

5.    Каждая «соседская» точка становится начальной  и для нее повторяется пункт 4 (Рис. 2). Если новая «соседская» точка удовлетворяет условию (2) и еще не присутствует в классе, то она включается в этот класс. Процедура повторяется до тех пор, пока ни одна из точек выборки не будет удовлетворять условию (2).

Рис. 2.

 

Рис. 3

 

6.    Выделенные точки объявить классом (Рис. 3) и исключить из выборки наблюдений.

7.    Повторять с пункта 2 до тех пор, пока объем выборки  не будет равен 0.

Рассмотрим результаты работы вышеописанного алгоритма. Выборка наблюдений объема s=20, в рамках вычислительного эксперимента, была сгенерирована по равномерному закону распределения в заданных границах. Расстояние δ было выбрано равным 2. Результаты работы алгоритма представлены на графике (рис. 4).

Рис. 4. Результаты работы алгоритма распознавания

На рис. 4 выделенные алгоритмом классы обведены линией. Как видно из полученных результатов, алгоритм провел классификацию безошибочно. Алгоритм выделил 4 класса, в каждом из которых по 5 точек.

 

Литература:

 

1.         Загоруйко Н. Г. Прикладные методы анализа данных и знаний / Н. Г. Загоруйко. Новосибирск: Издательство ИМ СО РАН, 1999.

2.         Чжан, Е. А. О компьютерной диагностике диодных матриц / Е. А. Чжан, В. И. Орлов, Н. А. Сергеева, В. В. Федосов // Системы автоматизации в образовании, науке и производстве AS’2013 // Труды IX всероссийской научно-практической конференции (с участием стран СНГ). Новокузнецк, 28–30 ноября, 2013

Основные термины (генерируются автоматически): класс, выборка наблюдений, распознавание образов, вид матрицы, выборка, задача, задача классификации, имеющаяся выборка наблюдений, общий вид, теория распознавания образов.


Ключевые слова

техническая диагностика, классификация, распознавание образов без учителя, таксономия, классификация.

Похожие статьи

Анализ методов распознавания образов | Статья в журнале...

Существует множество методов распознавания образов на изображениях. Понимание данных методов важно для решения различного рода задач. Во-первых, важно понимание теории распознавания образов.

Методы распознавания образов | Статья в журнале...

Распознавание образов — научная дисциплина, целью которой является выявление объектов по нескольким критериям или классам. Теория распознавания объектов представляет собой раздел информатики...

Применение метода многопараметрического распознавания...

Основные задачи теории распознавания образов заключаются в следующем [1]

Рассмотрим суть метода диагностики с помощью теории многомерного распознавания образов.

Алгоритмы распознавания объектов | Статья в сборнике...

Существует такой подход к решению задач распознавания (классификации) как усиление простых классификаторов.

Пусть, у нас в распоряжении имеется обучающая выборка . Где — вектор признаков, а — метка класса, к которому принадлежит .

Использование матриц комбинаторного типа для построения...

Методы распознавания образов используются в различных прикладных областях.

В реальном процессе распознавания нет полного перечня объектов, а имеется некоторые представители классов (априорная выборка).

О непараметрическом восстановлении матрицы наблюдений...

матрица наблюдений, объем выборки, выход модели, задача идентификации, переменная, исследуемый процесс, заполненная матрица, априорная информация, смысл, сплошная линия, исходная матрица, выход, вид, этап.

Крайние подходы группировки данных в распознавании образов

Ключевые слова: распознавание образов, алгоритмы группировки, алгоритм минимума, алгоритм максимума.

В таком случае имеется множество выборочных значений (представленных, например, в виде файлов данных наблюдений) без указания их...

Математические методы распознавания образов

Распознавание образов – это научная дисциплина, целью которой является классификация объектов по нескольким категориям или классам.

Задача распознавания образов является основной в большинстве интеллектуальных систем.

Сплошное и выборочное наблюдение: теоретический аспект

Выборочное наблюдение – это вид несплошного наблюдения, при котором характеристика всей совокупности (генеральной) дается по некоторой ее части (по выборке), отобранной в случайном порядке [1, 98 с...

Похожие статьи

Анализ методов распознавания образов | Статья в журнале...

Существует множество методов распознавания образов на изображениях. Понимание данных методов важно для решения различного рода задач. Во-первых, важно понимание теории распознавания образов.

Методы распознавания образов | Статья в журнале...

Распознавание образов — научная дисциплина, целью которой является выявление объектов по нескольким критериям или классам. Теория распознавания объектов представляет собой раздел информатики...

Применение метода многопараметрического распознавания...

Основные задачи теории распознавания образов заключаются в следующем [1]

Рассмотрим суть метода диагностики с помощью теории многомерного распознавания образов.

Алгоритмы распознавания объектов | Статья в сборнике...

Существует такой подход к решению задач распознавания (классификации) как усиление простых классификаторов.

Пусть, у нас в распоряжении имеется обучающая выборка . Где — вектор признаков, а — метка класса, к которому принадлежит .

Использование матриц комбинаторного типа для построения...

Методы распознавания образов используются в различных прикладных областях.

В реальном процессе распознавания нет полного перечня объектов, а имеется некоторые представители классов (априорная выборка).

О непараметрическом восстановлении матрицы наблюдений...

матрица наблюдений, объем выборки, выход модели, задача идентификации, переменная, исследуемый процесс, заполненная матрица, априорная информация, смысл, сплошная линия, исходная матрица, выход, вид, этап.

Крайние подходы группировки данных в распознавании образов

Ключевые слова: распознавание образов, алгоритмы группировки, алгоритм минимума, алгоритм максимума.

В таком случае имеется множество выборочных значений (представленных, например, в виде файлов данных наблюдений) без указания их...

Математические методы распознавания образов

Распознавание образов – это научная дисциплина, целью которой является классификация объектов по нескольким категориям или классам.

Задача распознавания образов является основной в большинстве интеллектуальных систем.

Сплошное и выборочное наблюдение: теоретический аспект

Выборочное наблюдение – это вид несплошного наблюдения, при котором характеристика всей совокупности (генеральной) дается по некоторой ее части (по выборке), отобранной в случайном порядке [1, 98 с...

Задать вопрос