Библиографическое описание:

Сенкальский Р. А., Страмоусова С. А. Кластерный анализ разработки современных алгоритмов обработки данных // Молодой ученый. — 2016. — №9.4. — С. 63-65.



Когда информационные технологии и огромный поток информации увеличивается в обществе постоянно, тогда для обработки данных требуются новые методы, одним из которых является кластерный анализ. Кластерный анализ – технология группирования объектов в ранее неизвестные группы [1]. Кластерный анализ применяется во многих сферах, таких как медицина, биология, маркетинг, социология и т.д. Задачами кластерного анализа является классификация и типология объектов, исследование объектов на предмет полезности концептуальных схем, исследование данных на присутствие типовых данных, выделенных каким-либо способом. Целью кластерного анализа является разбиение на группы схожих объектов для исследования данных из кластерной структуры.

Кластерный анализ является одним из наиболее успешно развивающихся разделов современной теоретической информатики. Он представляет собой группу методов многомерного статистического анализа, предназначенных для разбиения объектов или событий на группы, называемые кластерами [2]. Другими словами, это группа нескольких вычислительных систем выполняющие общие действия, которые представляются единой системой. Данная группа обычно состоит из нескольких компьютеров, связанных между собой, при этом используется как единый ресурс. Если анализировать действия кластеров серверов, то чаще всего она функционируют на раздельных компьютерах, что повышает производительность за счет распределения нагрузки на аппаратные ресурсы и обеспечивает отказоустойчивость на аппаратном уровне. Основной принцип, используемый при организации кластера сервера, на уровне программного протокола, это исполнение на одном аппаратном обеспечении по нескольку программных серверов. Такое использование может быть востребовано при разработке и тестировании кластерных решений, при необходимости обеспечения доступности кластера, с учетом частых изменений конфигурации серверов - членов кластера, требующих их перезагрузки (перезагрузка производится поочерёдно) в условиях ограниченных аппаратных ресурсов. В качестве примеров применения кластера можно привести использование такого программного обеспечения как: Google, Yandex, Youtube, 1C, ORACLE, CISCO, MSSQL.

Рассмотрим второй пример использование кластеризации решения задач на поиск информации по заданным параметрам. Результаты поиска формируются на основе группировки при поиске файлов, веб-сайтов, тем самым показывая один из приемов кластерного анализа обработки данных. Данный метод представляет пользователю использование быстрого поиска из набора заведомо известных подмножеств и исключения заведомо менее релевантного, что повышает использование интерфейса по сравнению с использованием простого сортированного списка. Для кластеризации поискаможно использовать следующее программное обеспечение:

 поисковая машина компании Vivísimo - Clusty;

 российская поисковая система - Nigma;

 облачная - Quintura.

Кластерный анализ обработки данных может быть использован в области цифрового изображения, когда цифровое изображение разбивается на отдельные области с целью распознавания объектов или с целью обнаружения границ. Также одна из областей изучения информатики является интеллектуальный анализ данных. В ходе решения задач анализа данных, которые в основном применяются в решении экономических, математических, статистических задач, также применяется кластерный анализ обработки данных. При решении таких задач наилучшим вариантом является выделение группы объектов, которые схожи для аналитического решения, изучить особенности выделенной группы, построить отдельную модель, чем решать задачу для всех данных. Примером такой задачи может быть анализ в области маркетинга, когда необходимо разработать единую стратегию для товаров, клиентов, покупателей.

Рассмотрим третий пример кластерного анализа на примере нейронных сетей.STATISTICA – современная, мощная и чрезвычайно быстрая среда по созданию нейросетевых моделей, является нейросетевым программным продуктом, который был переведен на русский язык. Появилась данная среда в 1984 году и разрабатывается до сих пор. Данный программный продукт STATISTICAAutomatedNeuralNetwork (SANN) это один из самых передовых и эффективных нейросетевых продуктов на рынке. В этом программном продукте используются уникальные инструменты автоматического нейросетевого поиска, автоматизированной нейронной сети (АНС), легкая в использовании как для новичков, так и для экспертов в области нейросетевых вычислений [3]. В данной программе можно выбирать данные, выполнять кодирование номинальных значений, а также решать задачи временных рядов и выполнять регрессию. Используя инструмент автоматического нейросетевого поиска Автоматизированные нейронные сети (АНС) пользователь пройдет все этапы создания нейронных сетей и выберет наилучший вариант, тем самым подтверждая простоту и аналитическую мощность данного программного продукта. Достоинством программы является поддержка ассамблеи нейросетей и нейросетевых архитектур практически неограниченного размера. Еще одно достоинство – это огромное количество графических и статических возможностей, которые облегчают интерактивный исследовательский анализ. Программа поддерживает загрузки и анализ нескольких моделей, а также имеет опциональную возможность генерации исходного кода на языках С, С++, С#, Java, PMML (PredictiveModelMarkupLanguage), которая может быть легко интегрирована во внешнюю среду для создания собственных приложений, интерфейс представлен на рисунке 1 [3].

Графические возможности

Рис. 1. Интерфейс программы STATISTICA.

Кроме планирования, моделирования и расчетов, кластерный анализ применяется при создании нейронных сетей, например в экономической деятельности, когда необходимо проанализировать количество данных в конкретных ситуациях, как анализ рынка ценных бумаг, анализ и прогноз курса валют, оценить оптимальное распределение ресурсов и т.п. В экономической сфере кластеры объединяют предприятия, организации и компании, через территориальные, технологические, организационные и экономические связи, которые работают в определенной сфере и взаимно дополняют друг друга. Кластеризация компаний, развивает конкуренцию, распространяют свое влияние на связанные с ними фирмы поставщиков, потребителей, конкурентов. В современном мире методы кластерного анализа из сферы математики, информатики, физики, астрономии постепенно перешли в социологию, маркетинг, экономику и другие сферы общественной жизни.

Литература:

  1. Лаптев B.В., Орлов П.А. Кластерный анализ визуального восприятия структуры данных // Бизнес-информатика. - 2015. - №3. - С. 34-43.
  2. Баранова И.В. // Материалы Десятой российской конференции с международным участием Новые информационные технологии в исследовании сложных структур. - Томск: Национальный исследовательский Томский государственный университет, 2014. - С. 3-4.
  3. STATISTICA - автоматизированные нейронные сети // Портал искусственного интеллекта. URL: http://neuronus.com/news-tech/84-statistica-avtomatizirovannye-nejronnye-seti.html (дата обращения: 16.03.2016).

Обсуждение

Социальные комментарии Cackle