Кластерный анализ разработки современных алгоритмов обработки данных | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 27 апреля, печатный экземпляр отправим 1 мая.

Опубликовать статью в журнале

Библиографическое описание:

Сенкальский, Р. А. Кластерный анализ разработки современных алгоритмов обработки данных / Р. А. Сенкальский, С. А. Страмоусова. — Текст : непосредственный // Молодой ученый. — 2016. — № 9.4 (113.4). — С. 63-65. — URL: https://moluch.ru/archive/113/29348/ (дата обращения: 17.04.2024).



Когда информационные технологии и огромный поток информации увеличивается в обществе постоянно, тогда для обработки данных требуются новые методы, одним из которых является кластерный анализ. Кластерный анализ – технология группирования объектов в ранее неизвестные группы [1]. Кластерный анализ применяется во многих сферах, таких как медицина, биология, маркетинг, социология и т.д. Задачами кластерного анализа является классификация и типология объектов, исследование объектов на предмет полезности концептуальных схем, исследование данных на присутствие типовых данных, выделенных каким-либо способом. Целью кластерного анализа является разбиение на группы схожих объектов для исследования данных из кластерной структуры.

Кластерный анализ является одним из наиболее успешно развивающихся разделов современной теоретической информатики. Он представляет собой группу методов многомерного статистического анализа, предназначенных для разбиения объектов или событий на группы, называемые кластерами [2]. Другими словами, это группа нескольких вычислительных систем выполняющие общие действия, которые представляются единой системой. Данная группа обычно состоит из нескольких компьютеров, связанных между собой, при этом используется как единый ресурс. Если анализировать действия кластеров серверов, то чаще всего она функционируют на раздельных компьютерах, что повышает производительность за счет распределения нагрузки на аппаратные ресурсы и обеспечивает отказоустойчивость на аппаратном уровне. Основной принцип, используемый при организации кластера сервера, на уровне программного протокола, это исполнение на одном аппаратном обеспечении по нескольку программных серверов. Такое использование может быть востребовано при разработке и тестировании кластерных решений, при необходимости обеспечения доступности кластера, с учетом частых изменений конфигурации серверов - членов кластера, требующих их перезагрузки (перезагрузка производится поочерёдно) в условиях ограниченных аппаратных ресурсов. В качестве примеров применения кластера можно привести использование такого программного обеспечения как: Google, Yandex, Youtube, 1C, ORACLE, CISCO, MSSQL.

Рассмотрим второй пример использование кластеризации решения задач на поиск информации по заданным параметрам. Результаты поиска формируются на основе группировки при поиске файлов, веб-сайтов, тем самым показывая один из приемов кластерного анализа обработки данных. Данный метод представляет пользователю использование быстрого поиска из набора заведомо известных подмножеств и исключения заведомо менее релевантного, что повышает использование интерфейса по сравнению с использованием простого сортированного списка. Для кластеризации поискаможно использовать следующее программное обеспечение:

 поисковая машина компании Vivísimo - Clusty;

 российская поисковая система - Nigma;

 облачная - Quintura.

Кластерный анализ обработки данных может быть использован в области цифрового изображения, когда цифровое изображение разбивается на отдельные области с целью распознавания объектов или с целью обнаружения границ. Также одна из областей изучения информатики является интеллектуальный анализ данных. В ходе решения задач анализа данных, которые в основном применяются в решении экономических, математических, статистических задач, также применяется кластерный анализ обработки данных. При решении таких задач наилучшим вариантом является выделение группы объектов, которые схожи для аналитического решения, изучить особенности выделенной группы, построить отдельную модель, чем решать задачу для всех данных. Примером такой задачи может быть анализ в области маркетинга, когда необходимо разработать единую стратегию для товаров, клиентов, покупателей.

Рассмотрим третий пример кластерного анализа на примере нейронных сетей.STATISTICA – современная, мощная и чрезвычайно быстрая среда по созданию нейросетевых моделей, является нейросетевым программным продуктом, который был переведен на русский язык. Появилась данная среда в 1984 году и разрабатывается до сих пор. Данный программный продукт STATISTICAAutomatedNeuralNetwork (SANN) это один из самых передовых и эффективных нейросетевых продуктов на рынке. В этом программном продукте используются уникальные инструменты автоматического нейросетевого поиска, автоматизированной нейронной сети (АНС), легкая в использовании как для новичков, так и для экспертов в области нейросетевых вычислений [3]. В данной программе можно выбирать данные, выполнять кодирование номинальных значений, а также решать задачи временных рядов и выполнять регрессию. Используя инструмент автоматического нейросетевого поиска Автоматизированные нейронные сети (АНС) пользователь пройдет все этапы создания нейронных сетей и выберет наилучший вариант, тем самым подтверждая простоту и аналитическую мощность данного программного продукта. Достоинством программы является поддержка ассамблеи нейросетей и нейросетевых архитектур практически неограниченного размера. Еще одно достоинство – это огромное количество графических и статических возможностей, которые облегчают интерактивный исследовательский анализ. Программа поддерживает загрузки и анализ нескольких моделей, а также имеет опциональную возможность генерации исходного кода на языках С, С++, С#, Java, PMML (PredictiveModelMarkupLanguage), которая может быть легко интегрирована во внешнюю среду для создания собственных приложений, интерфейс представлен на рисунке 1 [3].

Графические возможности

Рис. 1. Интерфейс программы STATISTICA.

Кроме планирования, моделирования и расчетов, кластерный анализ применяется при создании нейронных сетей, например в экономической деятельности, когда необходимо проанализировать количество данных в конкретных ситуациях, как анализ рынка ценных бумаг, анализ и прогноз курса валют, оценить оптимальное распределение ресурсов и т.п. В экономической сфере кластеры объединяют предприятия, организации и компании, через территориальные, технологические, организационные и экономические связи, которые работают в определенной сфере и взаимно дополняют друг друга. Кластеризация компаний, развивает конкуренцию, распространяют свое влияние на связанные с ними фирмы поставщиков, потребителей, конкурентов. В современном мире методы кластерного анализа из сферы математики, информатики, физики, астрономии постепенно перешли в социологию, маркетинг, экономику и другие сферы общественной жизни.

Литература:

  1. Лаптев B.В., Орлов П.А. Кластерный анализ визуального восприятия структуры данных // Бизнес-информатика. - 2015. - №3. - С. 34-43.
  2. Баранова И.В. // Материалы Десятой российской конференции с международным участием Новые информационные технологии в исследовании сложных структур. - Томск: Национальный исследовательский Томский государственный университет, 2014. - С. 3-4.
  3. STATISTICA - автоматизированные нейронные сети // Портал искусственного интеллекта. URL: http://neuronus.com/news-tech/84-statistica-avtomatizirovannye-nejronnye-seti.html (дата обращения: 16.03.2016).
Основные термины (генерируются автоматически): кластерный анализ, программный продукт, кластерный анализ обработки данных, CISCO, MSSQL, ORACLE, PMML, наилучший вариант, программное обеспечение, цифровое изображение.


Похожие статьи

Сравнительный анализ программного обеспечения систем...

На данный момент программное обеспечение системы мониторинга кластерной гибридной вычислительной системы на базе графических процессоров выполняет следующие функции: ‒ сбор данных

Программное обеспечение многомерного статистического анализа

Основные термины (генерируются автоматически): дискриминантный анализ, запуск программы, кластерный анализ, проведение, результат работы программы.

Обработка данных геомониторинга на основе сингулярного спектрального анализа.

Применение методов кластеризации для обработки новостного...

Библиографическое описание: Кутуков Д. С. Применение методов кластеризации для обработки новостного потока [Текст]

анализ действий пользователя с выдаваемым набором статей на его вопрос, использование этих данных для настройки алгоритмов

Конфигурирование и тестирование производительности...

Выбор аппаратного и системного программного обеспечения кластера. При рассмотрении вариантов создания кластера

- NX Nastran–инструмент для проведения компьютерного инженерного анализа (САЕ) проектируемых изделий методом конечных элементов (МКЭ) [15]

Выявление современных тенденций совершенствования...

В статье приводится анализ модернизации программного продукта c течением времени на примере программы Statgraphicsс целью выявления современных тенденций совершенствования программного обеспечения.

Поэтапный процесс кластерного анализа данных на основе...

1. Кутуков Д. С. Применение методов кластеризации для обработки новостного потока / Д. С

4. Сокэл Р. Р. Кластерный-анализ и классификация: предпосылки и основные направления.

Использование апостериорного анализа данных для обнаружения аномалий в SQL-запросах к...

Компьютерная идентификация и современные системы...

Таким образом, перед современными программными средствами ставится задача интеллектуальной обработки информации для извлечения знаний.

Собственно математический аппарат, определяющий эффективность извлечения и анализа данных, мало...

Метод k средних при решении задачи распознавания диктора по...

Кластерный анализ — задача разбиение заданной выборки объектов на подмножества, называемые

Рис. 1.Результат кластеризации алгоритмом k-means (k=3). Метод k-means хорошо работает, когда

Он эффективен для обработки больших объёмов данных, однако...

Похожие статьи

Сравнительный анализ программного обеспечения систем...

На данный момент программное обеспечение системы мониторинга кластерной гибридной вычислительной системы на базе графических процессоров выполняет следующие функции: ‒ сбор данных

Программное обеспечение многомерного статистического анализа

Основные термины (генерируются автоматически): дискриминантный анализ, запуск программы, кластерный анализ, проведение, результат работы программы.

Обработка данных геомониторинга на основе сингулярного спектрального анализа.

Применение методов кластеризации для обработки новостного...

Библиографическое описание: Кутуков Д. С. Применение методов кластеризации для обработки новостного потока [Текст]

анализ действий пользователя с выдаваемым набором статей на его вопрос, использование этих данных для настройки алгоритмов

Конфигурирование и тестирование производительности...

Выбор аппаратного и системного программного обеспечения кластера. При рассмотрении вариантов создания кластера

- NX Nastran–инструмент для проведения компьютерного инженерного анализа (САЕ) проектируемых изделий методом конечных элементов (МКЭ) [15]

Выявление современных тенденций совершенствования...

В статье приводится анализ модернизации программного продукта c течением времени на примере программы Statgraphicsс целью выявления современных тенденций совершенствования программного обеспечения.

Поэтапный процесс кластерного анализа данных на основе...

1. Кутуков Д. С. Применение методов кластеризации для обработки новостного потока / Д. С

4. Сокэл Р. Р. Кластерный-анализ и классификация: предпосылки и основные направления.

Использование апостериорного анализа данных для обнаружения аномалий в SQL-запросах к...

Компьютерная идентификация и современные системы...

Таким образом, перед современными программными средствами ставится задача интеллектуальной обработки информации для извлечения знаний.

Собственно математический аппарат, определяющий эффективность извлечения и анализа данных, мало...

Метод k средних при решении задачи распознавания диктора по...

Кластерный анализ — задача разбиение заданной выборки объектов на подмножества, называемые

Рис. 1.Результат кластеризации алгоритмом k-means (k=3). Метод k-means хорошо работает, когда

Он эффективен для обработки больших объёмов данных, однако...

Задать вопрос