Реализация хранилищ данных в системах поддержки принятия решений

Тартынский, Валентин Анатольевич

Системы поддержки принятия решения представляют собой системы, максимально приспособленные к решению задач повседневной управленческой деятельности, призванные оказать помощь лица, принимающие решения (ЛПР). Ясно, что чем больше информации вовлечено в процесс принятия решений, тем более обоснованное решение может быть принято. Информация, на основе которой принимается решение, должна быть достоверной, полной, непротиворечивой и адекватной. Поэтому при проектировании системы поддержки принятия решений (СППР) первым возникает вопрос о том, на основе каких данных эти системы будут работать.

Очевидно, что принятие решений должно основываться на реальных данных об объекте управления. Такая информация обычно хранится в оперативных базах данных систем оперативной обработки транзакций (online transaction processing — OLTP) обеспечивающих ввод, структурированное хранение и обработку информации в режиме реального времени. Набор аналитических функций в учетных системах обычно весьма ограничен. Схемы, используемые в OLTP-приложениях, осложняют создание даже простых отчетов, так как данные чаще всего распределены по множеству таблиц, и для их агрегирования необходимо выполнять сложные операции объединения. Как правило, попытки создания комплексных отчетов требуют больших вычислительных мощностей и приводят к потере производительности. Кроме того, в подобных системах хранятся постоянно изменяющиеся данные. Некоторые виды анализа требуют таких структурных изменений, которые недопустимы в текущей оперативной среде.

Решением данной проблемы является создание отдельного хранилища данных (ХД), содержащего агрегированную информацию в удобном виде. Целью построения хранилища данных является интеграция, актуализация и согласование оперативных данных из разнородных источников для формирования единого непротиворечивого взгляда на объект управления в целом. При этом в основе концепции хранилищ данных лежит признание необходимости разделения наборов данных, используемых для транзакционной обработки, и наборов данных, применяемых в СППР. Такое разделение возможно путем интеграции разъединенных в различных OLTP-системах и внешних источниках детализированных данных в едином хранилище, их согласования и, возможно, агрегации.

Еще одна концепция, неразрывно связанная с понятиями СППР и ХД – концепция оперативной аналитической обработки данных - OLAP (On-Line Analytical Processing, Интерактивная аналитическая обработка), использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений. Так автор концепции доктор Эдгар Кодд, известный исследователь баз данных и автор реляционной модели данных, определяет OLAP как "... имя, данное динамическому анализу предприятия, необходимому для создания, манипулирования, оживления и синтезирования информации на базе ... "Моделей информации о предприятии" ("Enterprise Data Models")... Оно включает в себя возможность выявления новых или непредвиденных отношений между переменными, способность идентифицировать параметры, необходимые для работы с большими объемами данных, создавать неограниченное число измерений (частей консолидации) и определять условия и выражения пересечения измерений" [1].

В основе концепции OLAP лежит понятие гиперкуба, или многомерного куба данных, в ячейках которого хранятся анализируемые (числовые) данные. Для описания значений данных в ячейках используется термин summary (в общем случае в одном кубе их может быть несколько), для обозначения исходных данных, на основе которых они вычисляются, — термин measure, а для обозначения параметров запросов — термин dimension (переводимый на русский язык обычно как "измерение", когда речь идет об OLAP-кубах). Значения, откладываемые на осях, называются членами измерений (members). Одновременный анализ по нескольким измерениям определяется как многомерный анализ. Несмотря на то, что предсказать, какую именно информацию и в каком виде захочет получить пользователь, работая с СППР, практически невозможно, измерения, по которым проводится анализ, достаточно стабильны. В процессе подготовки того или иного решения пользователь анализирует срез фактов по одному или нескольким измерениям. Анализ информации, исходя из понятий измерений и фактов, иногда называют многомерным моделированием данных (MultiDimensional Modelling, MDM).

Одной из самых интересных с точки зрения ЛПР возможностей, реализуемых СППР, является интеллектуальный анализ данных, так как он позволяет провести наиболее полный и глубокий анализ проблемы, дает возможность обнаружить скрытые взаимосвязи, принять наиболее обоснованное решение и более того - построить прогноз развития ситуации. Интеллектуальный анализ данных (Data Mining) — это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей. При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания.

Интеллектуальный анализ данных

(Data Mining)

Оперативные

данные

(OLTP)

Хранилище

данных

(Data Warehouse)

Анализ

данных

(OLAP)

Рис. 1. Архитектурно-технологическая схема СППР

В качестве примера практической реализации ХД в СППР рассмотрим созданную в Ростовском филиале ОАО НИИАС подсистему поддержки принятия решений для оперативно-диспетчерского и эксплуатационного персонала автоматизированной сортировочной горки (СППР КДК СУ) в составе «Комплекса контроля и диагностики станционных устройств зоны ГАЦ с рабочим местом горочного электромеханика АРМ ШН СГ» (КДК СУ ГАЦ). В качестве OLTP-систем в данном примере выступают подсистемы КДК СУ ГАЦ, собирающие информацию о состоянии напольных устройств и ходе роспуска, такие как горочная автоматическая централизация микропроцессорная с ведением накопления вагонов (управление маршрутами движения отцепов) (ГАЦ МН), контрольно-диагностический комплекс (диагностирование и протоколирование работы напольного и постового оборудования системы, протоколирование хода и результатов роспуска в текстовом и графическом виде) (КДК СУ), комплексная система автоматизированного управления компрессорной станции (КСАУ КС) и др.

СППР КДК СУ представляет собой систему поддержки принятия решений, использующую концепции ХД, OLAP и интеллектуального анализа данных, обеспечивая решение задач по мониторингу, многофакторному анализу работы сортировочной горки на основе данных автоматически поступающих из подсистем горочного комплекса; поддержки процессов принятия решений по функциональному и стратегическому управлению технологическим процессом работы сортировочной горки, выявлению наиболее «узких» и «проблемных» мест в работе горки – за счет использования новых информационных технологий, обеспечивающих оперативное предоставление сводных, агрегированных показателей работы, необходимых для принятия оперативного и взвешенного решения.

Рис. 2. Архитектурно-технологическая схема СППР КДК СУ

Создание хранилища данных из независимых источников данных — многоэтапный процесс, предусматривающий извлечение данных из каждого источника, преобразование их в соответствии со схемой хранилища данных, очистку и загрузку в хранилище. Для решения данной задачи в СППР КДК СУ выделена отдельная подсистема – подсистема сбора и предварительной обработки информации. Так как источники информации в данном случае представляют собой самые разноплановые системы, построенные на разнообразных платформах (Так, например, наряду с другими типами СУБД, такими как MySQL или IBM DB2, для хранения информации используются обычные текстовые файлы с форматированием) от данной подсистемы требуется максимально высокий уровень совместимости и гибкости в настройке. Исходя из выше описанных условий, выбор платформы реализации был остановлен на встроенной в Microsoft SQL Server 2005 службе Integration Services. Помимо возможности работы с самыми различными источниками данных, как реляционными так и многомерными, Integration Services предоставляет расширенный функционал по настройке и планированию задач по сбору и обработке информации.

Хранилище данных в СППР КДК СУ организовано по классической схеме «снежинка», при которой модель данных состоит из двух типов таблиц: одной таблицы фактов и несколько таблиц измерений. Особенностью схемы «снежинка» является то, что таблицы измерений могут быть соединены с таблицами измерений других иерархических уровней непосредственно, минуя таблицу фактов. В начальный момент разработки хранилища данных для СППР КДК СУ в качестве платформы реализации была выбрана СУБД Microsoft SQL Server 2000, затем был произведен переход на более современную СУБД Microsoft SQL Server 2005. Выбор платформы Microsoft SQL Server обоснован тем, что она позволяет оперировать значительными объемами информации, обеспечивая при этом гибкость в настройки и высокое быстродействие, что жизненно необходимо при обработке телеметрических данных, поступающих с напольных устройств автоматизированной сортировочной горки.

Хранилище данных СППР КДК СУ разбито на три физические БД, работающие под управлением Microsoft SQL Server 2005:

· служебную, со слабо изменяемыми данными, необходимыми для настройки СППР (например: политика разграничения доступа пользователей);

· оперативную, содержащую данные, получаемые от подсистемы сбора и предварительной обработки информации (например: данные о ходе роспусков за сутки), подготовленные для агрегирования и загрузки в многомерные кубы;

· архивную, куда попадают данные после загрузки в многомерные кубы.

Для повышения оперативности системы в ХД реализован метод инкрементального обновления кубов, который заключается в передаче в хранилище — и оттуда в кубы — только изменений, произошедших с момента последнего обновления, что позволяет значительно сократить объем передаваемых данных, а, следовательно, и время на их обработку. Во избежание разрушения или потери баз данных или отдельных компонент, предусмотрено резервирование и автоматическое восстановление. Активные и резервные данные хранятся на отдельных накопителях информации. Архивирование данных осуществляется автоматически на основе фиксированного расписания в период наименьшей загрузки сервера.

Подсистема статистического и интеллектуального анализа использует платформу Microsoft Analysis Services для работы с многомерными кубами. Подсистема позволяет оперативно производить многофакторный (многомерный) анализ работы оборудования КСАУ СП, качественных показателей работы персонала сортировочной горки, отслеживать динамику ключевых показателей (сбоев, отказов, КПД оборудования и т.п.), с формированием необходимых информационно-аналитических материалов (отчетов), в табличном и графическом виде, для ЛПР разного уровня. Кроме этого, предусмотрен инструментарий для динамического (интерактивного) построения произвольных отчетов (в пределах данных информационного хранилища), основанный на веб-технологиях с использованием Office Web Components в качестве средства визуализации, обеспечивающий: расчеты и вычисления по нескольким измерениям, иерархиям и/или членам; анализ трендов; выборку подмножеств данных для просмотра на экране; углубление в данные, для просмотра информации на более детализированном уровне; переход к детальным данным, лежащим в основе анализа; поворот таблицы отображаемых данных.

Используемая серверная архитектура – MOLAP (Multidimensional OLAP), которая не опирается на функциональность основных реляционных систем, но напрямую поддерживает многомерные представления данных с помощью многомерного механизма хранения. MOLAP позволяет реализовывать многомерные запросы на уровне хранения путем установки прямого соответствия. Основное преимущество MOLAP заключается в превосходных свойствах индексации; ее недостаток — низкий коэффициент использования дискового пространства, особенно в случае разреженных данных.

Многомерные кубы в подсистеме статистического и интеллектуального анализа СППР КДК СУ созданы на основе групп показателей работы определенных типов устройств. Помимо обычных кубов также реализованы, так называемые «виртуальные» кубы, представляющие собой объединение измерений из различных кубов с целью проведения более глубокого анализа. Отдельные модули в подсистеме реализуют функции интеллектуального анализа данных, позволяя прогнозировать развитие ситуаций, выявлять тенденции и закономерности в динамике контролируемых показателей.

Создание хранилища данных для СППР – сложный процесс, требующий глубоких знаний бизнес-логики и программно-технического инструментария. Вместе с тем внедрение подобных комплексов может дать значительные преимущества, что подтверждает сравнительный анализ показателей работы автоматизированной сортировочной горки ст. Красноярск-Восточный Красноярской ж. д. за период 2005 – 2008 г.г., после внедрения СППР КДК СУ, отмечен рост эффективности работы сортировочной горки за счет использования новых информационных технологий, обеспечивающих оперативное предоставление сводных, агрегированных показателей работы, необходимых для принятия оперативного и взвешенного решения.

Литература:

1. Codd E. F., Codd S. B., Salley C. T. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. - E. F. Codd & Associates, 1993.

2. Сараев А. Д., Щербина О. А. Системный анализ и современные информационные технологии //Труды Крымской Академии наук. — Симферополь: СОНАТ, 2006. — С. 47-59.

3. Львов В. Создание систем поддержки принятия решений на основе хранилищ данных / Системы Управления Базами Данных # 3/97. Москва: Издательский дом "Открытые системы" С. 30-40.

4. Архипенков С., Голубев Д., Максименко О. Хранилища данных. От концепции до внедрения. / Под общ. ред. С. Архипенкова. М.: Диалог-МИФИ, 2002.

Реализация хранилищ данных в системах поддержки принятия решений

Библиографическое описание:

Похожие статьи

Разработка бизнес-аналитики с использованием SQL SERVER...

Введение в BI-технологии | Статья в журнале «Молодой ученый»

Основные термины (генерируются автоматически): OLAP, OLTP...

Использование апостериорного анализа данных для обнаружения...

MapReduce и метод доступа к хранилищу MRIJ on RCFile

Обзор средств автоматизированного извлечения знаний и их...

Методы выполнения запросов к хранилищу данных в Hadoop...

Классификация и тестирование производительности способов...