Методы интеллектуального анализа данных

Певченко Светлана Сергеевна

Под интеллектуальным анализом данных понимают обработку информации и выявление в ней тенденции, которая помогает принимать решения. Существует множество различных методов интеллектуального анализа данных, моделирования запросов обработки и сбора информации [2].

Интеллектуальный анализ+ данных (многие знакомы с этим термином по его английскому названию data mining) — одна из самых актуальных тем в современном мире. И это не преувеличение: бизнес-анализ+ — только малая часть сферы применения этого мощнейшего инструмента.

Принципы интеллектуального анализа данных известны уже долгое время, но с появлением больших данных они получили еще более широкое распространение. При работе с большими наборами данных уже недостаточно относительно простой и прямолинейной статистики. Имея около миллиона подробных записей необходимо знать не только информацию о месте нахождения нескольких тысячей записей, но также необходимо понимать принадлежит ли эта категория записей к определенной группе.

Данные требования создали сложный процесс интеллектуальному анализу данных. Для решения задач требуется анализ+ данных, в котором строится модель для описания информации, а также в заключение создается результирующий отчет.

Большие данные объединяют три измерения: объем скорость и разнообразие [3].

Объем: когда предприятия переполнены данными всех типов, объем которых растет и легко может достичь терабайтов и даже петабайтов.

Скорость: иногда 2 минуты — это слишком долго. В таких чувствительных ко времени процессах как выявление мошенничества большие данные следует использовать по мере их поступления в организацию для того чтобы максимально повысить их ценность.

Разнообразие: большие данные могут относиться к любому структурированному или неструктурированному типу, представляя собой текст данные с датчиков звук видеозапись списки посещенных веб-страниц файлы протоколов и другие данные. Когда все эти данные различных типов анализируются, рождаются новые идеи.

Интеллектуальный анализ+ данных можно выполнить с относительно скромными системами баз данных и простыми инструментами включая создание своих собственных или с использованием готовых пакетов программного обеспечения. Сложный интеллектуальный анализ+ данных опирается на прошлый опыт и алгоритмы, определенные с помощью существующего программного обеспечения и пакетов, причем с различными методами ассоциируются разные специализированные инструменты [4].

Работа с большими наборами данных, а так же их обработка дает возможность создавать сложные обобщения результатов интеллектуального анализа данных по группам и сопоставлениям данных. В настоящее время доступны новые системы и инструменты, такие как комбинированные системы хранения и обработки данных. Базы данных SQL строго регламентируют структуру и жестко придерживаются схемы, что упрощает запросы к ним и анализ+ данных с известным форматом и структурой.

Рассмотрим некоторые ключевые методы интеллектуального анализа данных.

Ассоциация (или отношение) является наиболее известным методом интеллектуального анализа данных. Данный метод заключается в сопоставление двух или более элементов чаще всего одного и того же типа.

Метод классификации используют при описании нескольких атрибутов для идентификации определенного класса, а также в качестве входных данных для других методов. Для определения классификации применяют деревья принятия решений. Каждый класс обладает определенными свойствами, которые характеризуют его объекты. Наглядный пример — задача выяснения кредитоспособности клиента. Банковский служащий при этом оперирует двумя известными ему классами — «кредитоспособный» и «некредитоспособный».

Итак, задача классификации — определить к какому классу относятся те или иные данные; при этом множество классов к одному из которых впоследствии можно отнести исследуемый объект заранее известно.

Отнести клиента к той или иной группе помогает анализ+ его характеристик — возраста, места работы, уровня дохода, семейного положения. То есть фактически задача интеллектуального анализа данных сводится к тому, чтобы определить значение одного из параметров объекта анализа по значениям всех прочих его параметров.

Кластеризация позволяет использовать общие атрибуты различных классификаций в целях выявления кластеров. Исследуя один или более атрибутов можно сгруппировать отдельные элементы данных, вместе получая структурированное заключение. На простом уровне при кластеризации используется один или несколько атрибутов в качестве основы для определения кластера сходных результатов. Кластеризация полезна при определении различной информации, потому что она коррелируется с другими примерами, так что можно увидеть где подобия и диапазоны согласуются между собой [1].

Кластеризация — задача на первый взгляд очень похожая на метод классификации. Этот метод, также называемый кластерным анализом, является логическим продолжением или, если хотите, обобщенным случаем задачи классификации, когда набор классов заранее не известен.

При этом каждый ребенок сталкивается с этим методом уже на раннем этапе своего развития — когда учится отличать круг от квадрата или кошку от собаки оперируя лишь принципом «похожести — непохожести».

Более «взрослым» примером является широко известная задача сегментации рынка основная предпосылка, которой — предположение что все клиенты разные, хотя их и можно разделить на неопределенное количество групп. Маркетолог разделяет клиентов на сегменты или кластеры по принципу условного сходства — похожему социальному и географическому положению основным мотивам покупки.

Прогнозирующие методы используют значения одних переменных для предсказания неизвестных (целевых) значений переменных. В сочетании с другими методами интеллектуального анализа данных прогнозирование предполагает анализ+ тенденций классификацию сопоставление с моделью и отношения.

Метод под названием прогнозирование хорошо знаком бизнесменам: анализируя данные прошлых периодов можно построить прогноз на будущее — причем, чем подробнее исторические данные и чем больше анализируемый отрезок времени, тем точнее получатся результаты.

Этот метод нередко применяется для оценки спроса на услуги, и товары прогнозирования структуры сбыта, характеризующегося сезонными колебаниями или потребности в кадрах. Если, к примеру, директор ресторана быстрого питания хочет определить, сколько гамбургеров заказывать на ноябрь он должен проанализировать цифры ноябрьских продаж в минувшие пять лет.

Последовательные модели используются для анализа долгосрочных данных ― полезный метод выявления тенденций или регулярных повторений подобных событий.

Дерево решений, связанное с большинством других методов, используют в рамках критериев отбора ла так же для поддержки выбора определенных данных в рамках общей структуры. Дерево решений начинают с простого вопроса, который имеет два ответа (но возможно и больше). Каждый ответ приводит к следующему вопросу помогая классифицировать и идентифицировать данные или делать прогнозы.

веьенгукцпцремилфцудкмгицукууууууууууууууууууууууууууууууууууууууууууууу

Деревья решений чаще всего используются с системами классификации информации системами прогнозирования, где различные прогнозы могут основываться на прошлом историческом опыте, который помогает построить структуру дерева решений и получить результат.

Метод комбинации используется довольно редко. Он подобен методам классификации и кластеризации.

При всех основных методах часто имеет смысл записывать и впоследствии изучать полученную информацию. Для некоторых методов это совершенно очевидно. Например, при построении последовательных моделей и обучении в целях прогнозирования анализируются исторические данные из разных источников и экземпляров информации.

В других случаях этот процесс может быть более ярко выраженным. Деревья решений редко строятся один раз и никогда не забываются. При выявлении новой информации событий и точек данных может понадобиться построение дополнительных ветвей или даже совершенно новых деревьев.

Некоторые из этих процессов можно автоматизировать. Например, построение прогностической модели для выявления мошенничества с кредитными картами сводится к определению вероятностей, которые можно использовать для текущей транзакции с последующим обновлением этой модели при добавлении новых (подтвержденных) транзакций. Затем эта информация регистрируется так, что в следующий раз решение можно будет принять быстрее.

Интеллектуальный анализ+ данных опирается на построение подходящей модели и структуры которые можно использовать для обработки выявления и создания необходимой информации. Независимо от формы и структуры источника данных информация структурируется и организуется в соответствии с форматом, который позволяет выполнять интеллектуальный анализ+ данных с максимально эффективной моделью.

Подумайте о комбинировании бизнес-требований по интеллектуальному анализу данных с выявлением существующих переменных (покупатель стоимость страна) и созданием новых переменных, которые можно использовать для анализа данных на подготовительном этапе.

Аналитические переменные для данных полученных из множества различных источников можно составить в единую определенную структуру (например, создать класс покупателей определенных уровней и возрастов или класс ошибок определенного типа).

В зависимости от источника данных важно выбрать правильный способ построения и преобразования этой информации, каким бы ни был метод окончательного анализа данных. Этот шаг также ведет к более сложному процессу выявления сбора упрощения или расширения информации в соответствии с входными данными.

веьенгукцпцремилфцудкмгицукууууууууууууууууууууууууууууууууууууууууууууу

Источник данных местоположение и база данных влияют на то как будет обрабатываться и объединяться информация.

Различные методы Data Mining характеризуются определенными свойствами, которые могут быть определяющими при выборе метода анализа данных. Методы можно сравнивать между собой оценивая характеристики их свойств.

Основные свойства и характеристики методов Data Mining: точность масштабируемость интерпретируемость проверяемость трудоемкость гибкость быстрота и популярность.

Масштабируемость — свойство вычислительной системы, которое обеспечивает предсказуемый рост системных характеристик, например быстроты реакции общей производительности и пр. при добавлении к ней вычислительных ресурсов.

Интеллектуальный анализ+ данных — это не только выполнение некоторых сложных запросов к данным хранящимся в базе данных. Независимо от того используете ли вы SQL базы данных на основе документов простые неструктурированные файлы необходимо работать с данными форматировать или реструктурировать их. Требуется определить формат информации, на котором будет основываться ваш метод и анализ+. Затем, когда информация находится, в нужном формате можно применять различные методы (по отдельности или в совокупности) не зависящие от требуемой базовой структуры данных или набора данных.

Литература:

1. Прогнозная аналитика: страница Википедии по прогностическому анализу с обзором общих приложений и методов используемых для прогнозирования.

2. Data mining: страница Википедии об интеллектуальном анализе данных.

3. http://www.interface.ru home.asp?artId=34686&vId=375: IBM Big Data

4. Дюк В. А. Data Mining: Учебный курс. СПб.: Питер2010.368 с.

5.

веьенгукцпцремилфцудкмгицукууууууууууууууууууууууууууууууууууууууууууууу

Васильев В. П. [и др.]. Разработка информационно-аналитической системы мониторинга и прогнозирования развития системы образования в субъектах Российской Федерации до 2015 года Мат. Всерос. науч.-практич. конф. «Человеческое измерение в информационном обществе» в рамках Всерос. форума «Образовательная среда — 2003». — М.: ВВЦ 2003.

Молодой учёный

Методы интеллектуального анализа данных

Методы интеллектуального анализа данных

Молодой учёный