Компьютерная идентификация и современные системы интеллектуальной обработки данных | Статья в журнале «Молодой ученый»

Автор:

Рубрика: Технические науки

Опубликовано в Молодой учёный №4 (138) январь 2017 г.

Дата публикации: 30.01.2017

Статья просмотрена: 25 раз

Библиографическое описание:

Каримова Н. О. Компьютерная идентификация и современные системы интеллектуальной обработки данных // Молодой ученый. — 2017. — №4. — С. 22-24. — URL https://moluch.ru/archive/138/38791/ (дата обращения: 18.10.2018).



Решение задачи идентификации представляет собой, по существу, интеллектуальный процесс обработки данных с получением новых знаний в виде математической модели. Проблема разработки методов и алгоритмов интеллектуального анализа и извлечения данных, в зарубежной литературе определяемых под общим термином Data Mining, с каждым годом приобретает все большее практическое значение при решении реальных задач, возникающих во многих областях науки, промышленности и экономики [1].

Чтобы воспользоваться этими данными, необходимо применение отдельных программных средств автоматического извлечения и анализа данных с целью установления полезных, нетривиальных и ранее неизвестных закономерностей на основе применения специализированных методов и алгоритмов. Таким образом, перед современными программными средствами ставится задача интеллектуальной обработки информации для извлечения знаний. Знания — это больше, чем сумма фактов, поскольку они основаны на закономерностях, а не на списках данных. Именно эту задачу выполняют современные средства Data Mining [2].

Сырые данные могут быть полностью либо частично структурированными и потому эти системы должны работать как с реляционными, так и с другими видами баз данных (например, многомерными базами данных). Собственно математический аппарат, определяющий эффективность извлечения и анализа данных, мало зависит от способа и формы хранения информация [3, 4, 5].

Современные системы хранения информации способны содержать огромные массивы данных, которые при этом обладают следующими особенностями [6, 7]:

− Как правило, описание объектов содержит не менее 25–50 характерных признаков или полей базы данных, где каждый признак может быть дискретным (и иметь 5–10 и более значений) или непрерывным.

− Множество значений и признаков не является окончательным и может измениться.

− Критерии, определяющие качество объектов, носят как формальный, так и экспертный характер, т. е. не всегда могут быть выражены явной зависимостью.

− Объем данных (примеров объектов) достаточно велик и растет, причем, некоторые удачные в прошлом объекты теряют свое качество во времени из-за постоянного развития технологий.

− Опытный эксперт обладает интуитивным знанием закономерности, определяющей качественный объект, и способен отделить удачные объекты от неудачных, но не может выразить свои знания в явном виде.

− Процесс оценки и ранжирования объектов занимает существенное время.

Резюмируя, можно подчеркнуть, что системы Data Mining, работая с неограниченными объемами неоднородных данных, должны предоставлять пользователю простые в использовании инструменты для получения практически полезных, конкретных, понятных и неочевидных результатов. Учитывая это, становится понятным, что поиск закономерностей с использованием технологии интеллектуального анализа данных требует значительных вычислительных ресурсов и синтеза разных методов и подходов к организации процесса извлечения знаний из потока данных.

Рассмотрим основные виды закономерностей, соответствующие задачи Data Mining и соответствующие им некоторые алгоритмы, лежащие в основе многих современных средств и систем интеллектуального анализа данных.

Типы задач и виды алгоритмов интеллектуального анализа данных.Существуют различные виды алгоритмов анализа данных. Среди них можно выделить некоторые наиболее популярные методы и подходы — такие, как различные методы статистического анализа (например, корреляционный, факторный, регрессивный, дисперсионный и кластерный анализ), многомерные таблицы, генетические алгоритмы и нейронные сети, нечеткая логика, алгоритм ближайшего соседа, групповой учет аргументов и деревья решений.

Выбор алгоритма обработки данных зависит от многих факторов, однако, в первую очередь, следует учитывать тип задачи, которую предстоит решать системе, и в соответствии с этим тип закономерности, которую система должна выявить в исследуемом объеме данных. Традиционно в Data Mining выделяют следующие типовые задачи (и соответственно типовые закономерности):

− ассоциация;

− кластеризация;

− классификация;

− исключение;

− прогнозирование.

Задача нахождения ассоциаций сводится к поиску связанных свойств объекта, при этом проблема состоит именно в том, чтобы правильно диагностировать и установить связи между полями базы. По своим методам, задача нахождения ассоциаций схожа с задачей кластеризации, с той лишь разницей, что первая работает с признаками объекта, а вторая собственно с самими объектами. В качестве подкласса задач определения связей можно выделить задачу определения временной последовательности. В отличие от классической задачи нахождения ассоциаций, которая концентрируется на определении связей между свойствами объекта, задача определения последовательности связана с выявлением связанных по времени событий. Помимо прочего, это могут быть и цепочки связанных по времени изменений свойств объекта.

Задача кластеризации заключается в выделении групп объектов со сходными свойствами, при этом (в отличие от классификации) сами группы заранее не определены. Приложение, анализирующее данные, должно самостоятельно определить, по каким критериям и признакам следует отличать группы объектов и тем самым использовать их для последующей кластеризации. Традиционно решение этой задачи (определение групп объектов) может служить отправной точкой для выполнения задачи классификации.

Задача классификации состоит в выявлении признаков, характеризующих группу, и последующем распознавании, т. е. соотнесении массива анализируемых объектов с определенной группой на основе сравнения их атрибутов с контрольными атрибутами обучающей выборки. При этом важными требованиями к приложениям, классифицирующим данные, являются минимальное количество исключений, а также наличие механизма оптимизации процесса распознавания, поскольку количество объектов и их свойств может быть очень большим. Далее, на основе знаний, полученных в результате выполнения задачи классификации, можно выполнять более уточняющую задачу исключения.

Задача поиска исключений направлена на нахождение объектов, значения атрибутов которых резко отличаются от других. При этом, основываясь на выявленных ранее значениях средних параметров объектов, особое внимание уделяют тем объектам, параметры которых наиболее сильно отличаются от этих средних значений. Помимо прочих целей, этот анализ можно проводить и для верификации точности выполнения задачи классификации.

Результаты выполнения вышеуказанных задач, в свою очередь, используются при решении конечной задачи — прогнозирования. При выполнении этой задачи цель состоит в том, чтобы предсказать по значениям одних полей объекта значения остальных. Кроме того, отдельной задачей прогнозирования также является определение тех полей и их оптимальных значений, которые играют ключевую роль в достижении ожидаемых результатов по конкретному заданному полю.

Таким образом, из описания задач интеллектуального анализа данных видно, что их специфика в значительной мере определяет выбор соответствующего алгоритма решения.

Таким образом, очевидно, что выбор правильного алгоритма зависит от класса задачи, которую требуется решить, а также от состава и объема исходных данных. Так, например, задачи классификации неоднородных данных лучше решать с помощью алгоритма деревьев решений, а задачи прогнозирования или выявления неявных закономерностей — с помощью метода кластеризации.

Важно отметить, что алгоритм выявления закономерностей является, пожалуй, важнейшим компонентом, определяющим эффективность работы системы; однако при этом существуют другие факторы и средства, значительно облегчающие успешное решение аналитических задач. Так, например, все в том же Analysis Services СУБД Microsoft SQL Server, полезными представляются функциональные дополнения для T-SQL и OLE DB для Data Mining. С помощью Data Shaping Service в OLE DB а также специального столбца типов содержания, так называемого столбца таблицы, OLE DB для Data Mining позволяет использовать как вложенные операторы выбора (nested cases), так и невложенные (non nested cases), для обучения и прогнозирования.

Литература:

  1. Бирюков А. Системы принятия решений и хранилища данных // СУБД. № 4, 1997.
  2. Львов В. Создания систем поддержки принятия решений на основе хранилищ данных // СУБД. № 3, 1997.
  3. Львович О. Data Warehousing — выход из кризиса оперативного анализа // Read Me, № 6, 1998.
  4. Inmon W. H. Building the Data Warehouse. — Wellesley, MA: QED Publishing Group, 1992.
  5. Городецкий В. И. Многоагентные системы: современное состояние исследований и перспективы применения // «Новости искусственного интеллекта». № 1, 1996.
  6. Inmon W. H., Welch J. D., Glassey Katherine L. Managing the Data Warehouse. Wiley Computing Publishing, 1997.
  7. Oracle Method. Custom Development. Data Warehouse Method Handbook, Release 1.0.0, 2002 Oracle Corporation.
Основные термины (генерируются автоматически): OLE, задача, интеллектуальный анализ данных, данные, задача нахождения ассоциаций, T-SQL, анализ данных, SQL, задача классификации, задача кластеризации.


Похожие статьи

Методы интеллектуального анализа данных | Статья в журнале...

интеллектуальный анализ данных, данные, интеллектуальный анализ, SQL, дерево решений, набор данных, метод классификации, баз данных, выявление мошенничества, источник данных.

Сравнительный анализ алгоритмов нейронной сети и деревьев...

Для проведения интеллектуального анализа данных будем использовать компонент Microsoft SQL Server 2012 — Microsoft Analysis Services.

Каждый ответ приводит к следующему вопросу помогая классифицировать и идентифицировать данные или делать прогнозы.

Поэтапный процесс кластерного анализа данных на основе...

Рассмотрим задачу кластеризации данных.

Основной идеей неиерархических алгоритмов кластеризации данных является минимизация расстояний между объектами в кластерах.

Разработка бизнес-аналитики с использованием SQL SERVER...

SQL, UDM, витрина данных, OLAP, данные, источник данных, интеллектуальный анализ данных, реляционная база данных, возможность, измерение.

Использование апостериорного анализа данных для обнаружения...

Методы интеллектуального анализа данных в диагностировании сердечно-сосудистых заболеваний.

Разработка модуля анализа данных в интеллектуальных системах. Обзор методов обнаружения аномалий в SQL-запросах к базам данных.

Кластерный анализ разработки современных алгоритмов...

Рассмотрим второй пример использование кластеризации решения задач на поиск информации по заданным параметрам.

Также одна из областей изучения информатики является интеллектуальный анализ данных.

Выбор платформы интеллектуального анализа данных для...

Ключевые слова: интеллектуальный анализ данных; RapidMiner.

Все задачи, связанные с хранением данных, моделей и результатов анализа, в RapidMiner решаются при помощи единого репозитория.

2) взвешивания атрибутов, 3) кластеризации и сегментации (модель...

Реализация хранилищ данных в системах поддержки принятия...

Интеллектуальный анализ данных.

Основные термины (генерируются автоматически): OLAP, SQL, данные, MOLAP, интеллектуальный анализ данных, OLTP, таблица измерений, хранилище данных, автоматизированная сортировочная, куб.

Первичная обработка сигналов вейвлетами на примере подготовки...

Но кроме уменьшения размера входных данных, вейвлет-анализ помогает выявить ещё и особенности сигнала.

Теперь обратимся к вопросу адаптации этого алгоритма к задачам классификации и кластеризации.

Методы интеллектуального анализа данных | Статья в журнале...

интеллектуальный анализ данных, данные, интеллектуальный анализ, SQL, дерево решений, набор данных, метод классификации, баз данных, выявление мошенничества, источник данных.

Сравнительный анализ алгоритмов нейронной сети и деревьев...

Для проведения интеллектуального анализа данных будем использовать компонент Microsoft SQL Server 2012 — Microsoft Analysis Services.

Каждый ответ приводит к следующему вопросу помогая классифицировать и идентифицировать данные или делать прогнозы.

Поэтапный процесс кластерного анализа данных на основе...

Рассмотрим задачу кластеризации данных.

Основной идеей неиерархических алгоритмов кластеризации данных является минимизация расстояний между объектами в кластерах.

Разработка бизнес-аналитики с использованием SQL SERVER...

SQL, UDM, витрина данных, OLAP, данные, источник данных, интеллектуальный анализ данных, реляционная база данных, возможность, измерение.

Использование апостериорного анализа данных для обнаружения...

Методы интеллектуального анализа данных в диагностировании сердечно-сосудистых заболеваний.

Разработка модуля анализа данных в интеллектуальных системах. Обзор методов обнаружения аномалий в SQL-запросах к базам данных.

Кластерный анализ разработки современных алгоритмов...

Рассмотрим второй пример использование кластеризации решения задач на поиск информации по заданным параметрам.

Также одна из областей изучения информатики является интеллектуальный анализ данных.

Выбор платформы интеллектуального анализа данных для...

Ключевые слова: интеллектуальный анализ данных; RapidMiner.

Все задачи, связанные с хранением данных, моделей и результатов анализа, в RapidMiner решаются при помощи единого репозитория.

2) взвешивания атрибутов, 3) кластеризации и сегментации (модель...

Реализация хранилищ данных в системах поддержки принятия...

Интеллектуальный анализ данных.

Основные термины (генерируются автоматически): OLAP, SQL, данные, MOLAP, интеллектуальный анализ данных, OLTP, таблица измерений, хранилище данных, автоматизированная сортировочная, куб.

Первичная обработка сигналов вейвлетами на примере подготовки...

Но кроме уменьшения размера входных данных, вейвлет-анализ помогает выявить ещё и особенности сигнала.

Теперь обратимся к вопросу адаптации этого алгоритма к задачам классификации и кластеризации.

Обсуждение

Социальные комментарии Cackle

Похожие статьи

Методы интеллектуального анализа данных | Статья в журнале...

интеллектуальный анализ данных, данные, интеллектуальный анализ, SQL, дерево решений, набор данных, метод классификации, баз данных, выявление мошенничества, источник данных.

Сравнительный анализ алгоритмов нейронной сети и деревьев...

Для проведения интеллектуального анализа данных будем использовать компонент Microsoft SQL Server 2012 — Microsoft Analysis Services.

Каждый ответ приводит к следующему вопросу помогая классифицировать и идентифицировать данные или делать прогнозы.

Поэтапный процесс кластерного анализа данных на основе...

Рассмотрим задачу кластеризации данных.

Основной идеей неиерархических алгоритмов кластеризации данных является минимизация расстояний между объектами в кластерах.

Разработка бизнес-аналитики с использованием SQL SERVER...

SQL, UDM, витрина данных, OLAP, данные, источник данных, интеллектуальный анализ данных, реляционная база данных, возможность, измерение.

Использование апостериорного анализа данных для обнаружения...

Методы интеллектуального анализа данных в диагностировании сердечно-сосудистых заболеваний.

Разработка модуля анализа данных в интеллектуальных системах. Обзор методов обнаружения аномалий в SQL-запросах к базам данных.

Кластерный анализ разработки современных алгоритмов...

Рассмотрим второй пример использование кластеризации решения задач на поиск информации по заданным параметрам.

Также одна из областей изучения информатики является интеллектуальный анализ данных.

Выбор платформы интеллектуального анализа данных для...

Ключевые слова: интеллектуальный анализ данных; RapidMiner.

Все задачи, связанные с хранением данных, моделей и результатов анализа, в RapidMiner решаются при помощи единого репозитория.

2) взвешивания атрибутов, 3) кластеризации и сегментации (модель...

Реализация хранилищ данных в системах поддержки принятия...

Интеллектуальный анализ данных.

Основные термины (генерируются автоматически): OLAP, SQL, данные, MOLAP, интеллектуальный анализ данных, OLTP, таблица измерений, хранилище данных, автоматизированная сортировочная, куб.

Первичная обработка сигналов вейвлетами на примере подготовки...

Но кроме уменьшения размера входных данных, вейвлет-анализ помогает выявить ещё и особенности сигнала.

Теперь обратимся к вопросу адаптации этого алгоритма к задачам классификации и кластеризации.

Методы интеллектуального анализа данных | Статья в журнале...

интеллектуальный анализ данных, данные, интеллектуальный анализ, SQL, дерево решений, набор данных, метод классификации, баз данных, выявление мошенничества, источник данных.

Сравнительный анализ алгоритмов нейронной сети и деревьев...

Для проведения интеллектуального анализа данных будем использовать компонент Microsoft SQL Server 2012 — Microsoft Analysis Services.

Каждый ответ приводит к следующему вопросу помогая классифицировать и идентифицировать данные или делать прогнозы.

Поэтапный процесс кластерного анализа данных на основе...

Рассмотрим задачу кластеризации данных.

Основной идеей неиерархических алгоритмов кластеризации данных является минимизация расстояний между объектами в кластерах.

Разработка бизнес-аналитики с использованием SQL SERVER...

SQL, UDM, витрина данных, OLAP, данные, источник данных, интеллектуальный анализ данных, реляционная база данных, возможность, измерение.

Использование апостериорного анализа данных для обнаружения...

Методы интеллектуального анализа данных в диагностировании сердечно-сосудистых заболеваний.

Разработка модуля анализа данных в интеллектуальных системах. Обзор методов обнаружения аномалий в SQL-запросах к базам данных.

Кластерный анализ разработки современных алгоритмов...

Рассмотрим второй пример использование кластеризации решения задач на поиск информации по заданным параметрам.

Также одна из областей изучения информатики является интеллектуальный анализ данных.

Выбор платформы интеллектуального анализа данных для...

Ключевые слова: интеллектуальный анализ данных; RapidMiner.

Все задачи, связанные с хранением данных, моделей и результатов анализа, в RapidMiner решаются при помощи единого репозитория.

2) взвешивания атрибутов, 3) кластеризации и сегментации (модель...

Реализация хранилищ данных в системах поддержки принятия...

Интеллектуальный анализ данных.

Основные термины (генерируются автоматически): OLAP, SQL, данные, MOLAP, интеллектуальный анализ данных, OLTP, таблица измерений, хранилище данных, автоматизированная сортировочная, куб.

Первичная обработка сигналов вейвлетами на примере подготовки...

Но кроме уменьшения размера входных данных, вейвлет-анализ помогает выявить ещё и особенности сигнала.

Теперь обратимся к вопросу адаптации этого алгоритма к задачам классификации и кластеризации.

Задать вопрос