Применение технологии ассоциативного анализа к данным биржевых рынков с использованием BI-платформ

Гладких Виктория Владимировна

Современные финансовые рынки представляют собой сложные многомерные системы, в которых взаимодействие множества факторов создает условия, где традиционные аналитические подходы часто оказываются недостаточно эффективными. Технические индикаторы, скользящие средние и методы регрессионного анализа, составляющие основу классического технического и фундаментального анализа, преимущественно ориентированы на изучение отдельных активов или парных корреляций, однако многие значимые рыночные явления возникают именно из сложных многомерных взаимодействий, которые остаются невидимыми для таких подходов. Обнаружить комбинации событий, таких как одновременное изменение цен на сырьевых рынках, макроэкономические публикации и отраслевые тренды, вручную практически невозможно, что создает потребность в методах, способных автоматически выявлять устойчивые многомерные паттерны.

Технология ассоциативного анализа, изначально разработанная Агравалом и его коллегами для анализа потребительских корзин, представляет значительный потенциал для решения данной проблемы. Ее фундаментальная идея заключается в поиске устойчивых закономерностей вида «если множество A присутствует в транзакции, то с высокой вероятностью в этой же транзакции присутствует множество B». Классические алгоритмы, такие как Apriori и FP-Growth, позволяют извлекать такие правила из больших наборов дискретных данных, оценивая их значимость с помощью метрик поддержки, достоверности и лифта [1, с. 487]. Однако применение данной технологии к данным финансовых рынков сопряжено с фундаментальными методологическими трудностями, связанными с несоответствием природы исходных данных и требований алгоритмов: биржевые показатели представляют собой непрерывные, нестационарные и зашумленные временные ряды, в то время как алгоритмы ассоциативного анализа предназначены для работы с дискретными категориальными транзакциями [2, с. 298].

Адаптация технологии ассоциативного анализа к данным фондового рынка влечет за собой несколько ключевых проблем, требующих системного решения. Прежде всего, это проблема дискретизации непрерывных финансовых показателей, преобразование числовых значений цен, доходностей и объемов торгов в категориальные события неизбежно, однако выбор метода дискретизации критически влияет на качество извлекаемых правил. Равномерное разбиение на интервалы может уничтожить экономически значимые паттерны, тогда как излишне детализированная дискретизация приводит к потере статистической значимости правил. Кроме того, временная структура данных требует особого учета: финансовые временные ряды характеризуются автокорреляцией, кластерами волатильности и сдвигами режимов, что означает, что правило, обнаруженное на одних данных, может оказаться несостоятельным на других. Классические алгоритмы ассоциативного анализа предполагают независимость транзакций, поэтому временные лаги и последовательности событий должны быть явно включены в модель [3, с. 127]. Также проблема шума и переобучения в финансовых данных особенно остра: низкие пороги поддержки и достоверности генерируют тысячи ложных правил, а слишком высокие могут пропустить ценные, но редкие паттерны. Наконец, интерпретируемость результатов представляет собой самостоятельную задачу, поскольку даже технически корректное правило может быть экономически бессмысленным и неприменимым для принятия инвестиционных решений.

В научной литературе имеются отдельные попытки применения ассоциативного анализа в финансовой сфере. В области обнаружения мошенничества ассоциативные правила помогают выявлять подозрительные транзакционные паттерны [2, с. 299], в кредитном скоринге — обнаруживать правила, связанные с риском дефолта, в управлении портфелем — находить совместные движения среди активов, однако прямое применение к временным рядам цен встречается редко. Известные исследования используют дискретизацию дневных доходностей для поиска взаимосвязей между движениями цен акций или комбинируют ассоциативный анализ с техническими индикаторами для прогнозирования краткосрочных трендов [3, с. 130]. Несмотря на эти усилия, большинство работ остаются изолированными кейс-анализами без обобщенной методологии. При этом современные платформы бизнес-аналитики, такие как Microsoft Power BI, Tableau и Qlik Sense, предлагают мощные средства для интеграции данных, их преобразования и визуализации, однако их применение в связке с алгоритмами ассоциативного анализа для решения финансовых задач методически не систематизировано.

Новизна предлагаемого подхода состоит в комплексной интеграции решения всех выявленных методологических проблем в рамках единой воспроизводимой методологии, реализованной в среде BI-платформы. В отличие от существующих фрагментарных исследований, где ассоциативный анализ применяется изолированно с использованием отдельных скриптов, а результаты вручную импортируются в дашборды, предлагаемая методология объединяет весь аналитический конвейер, от предметно-ориентированной дискретизации и формирования временных транзакций до интерактивной визуализации и интерпретации правил, в единой среде Microsoft Power BI. Это позволяет не только автоматизировать процесс извлечения правил, но и обеспечить их глубокую визуальную валидацию через наложение на временные ряды и интерактивные фильтры, что недостижимо при использовании разрозненных инструментов.

В качестве решения описанных проблем предлагается пятиэтапная методологическая основа, реализованная в среде Microsoft Power BI. Выбор данной платформы обусловлен ее развитыми возможностями интеграции с языками Python и R, что позволяет реализовывать нестандартные алгоритмы анализа непосредственно в среде платформы, гибкими инструментами ETL через Power Query для предобработки исходных данных, а также широким спектром средств интерактивной визуализации, необходимых для интерпретации сложных многомерных зависимостей [4, с. 115].

Первый этап предлагаемой методологии включает сбор и интеграцию данных из различных источников. Исторические данные по ценам акций, включая цены открытия, максимума, минимума, закрытия и объемы торгов, собираются для широкого спектра активов за период не менее пяти лет. Макроэкономические индикаторы, включая ключевые ставки центральных банков, данные по инфляции и индексы деловой активности, синхронизируются с биржевыми данными на ежедневной основе [2, с. 300]. Дополнительно могут быть агрегированы индикаторы новостного фона на основе методов обработки естественного языка. Все данные загружаются в Power BI с использованием Power Query или скриптов Python.

Второй этап посвящен дискретизации непрерывных переменных в категориальные события. Для ценовых изменений предлагается использовать категории на основе относительного изменения за выбранный временной интервал: сильное падение (более -3 %), падение (от -3 % до -1 %), стабильность (от -1 % до +1 %), рост (от +1 % до +3 %) и сильный рост (более +3 %). Режим волатильности рассчитывается как скользящее стандартное отклонение доходностей с последующей дискретизацией в низкую, нормальную и высокую волатильность. Аномалия объема определяется путем сравнения текущего объема с двадцатидневным скользящим средним, что дает категории низкого, нормального и высокого объема. Макроэкономические события также преобразуются в дискретные события с временной привязкой.

На третьем этапе из дискретизированных событий формируются транзакционные наборы. Возможны два принципиальных подхода. Первый предполагает использование скользящего временного окна для каждого актива, где в одну транзакцию собираются все события, произошедшие в пределах этого окна. Второй подход заключается в формировании транзакции состояния рынка, включающей события по всем активам и макропоказателям за конкретный день, что позволяет выявлять кросс-активные зависимости. Второй подход предпочтительнее для обнаружения многомерных взаимодействий между различными секторами рынка и макроэкономическими факторами.

Четвертый этап представляет собой непосредственно извлечение ассоциативных правил с использованием скриптов Python, встроенных в Power BI. Реализуются как классический алгоритм Apriori, обеспечивающий интерпретируемость и простоту настройки параметров [1, с. 490], так и более производительный алгоритм FP-Growth для работы с большими наборами данных [5, с. 4]. Для оценки значимости правил вычисляются ключевые метрики: поддержка как частота одновременного появления антецедента и консеквента правила, достоверность как условная вероятность консеквента при условии антецедента, и лифт, показывающий, насколько более вероятным становится консеквент при наличии антецедента. Минимальные пороговые значения устанавливаются эмпирически с учетом характеристик конкретного набора данных и целей анализа.

Пятый этап обеспечивает интерактивную визуализацию и интерпретацию извлеченных правил. Все обнаруженные правила загружаются обратно в Power BI в виде таблицы с сортируемыми столбцами для всех метрик, антецедента и консеквента. Сетевой граф, где узлы представляют события, а ребра — правила, дает визуальный обзор наиболее значимых ассоциаций. Слайсеры параметров позволяют фильтровать правила по различным контекстам — классу активов, временному периоду или пороговым значениям метрик. Функциональность наложения временных рядов дает возможность выбрать конкретное правило и подсветить на временной шкале периоды, когда выполнялся его антецедент, что позволяет визуально верифицировать последующую динамику. Такая интерактивная среда превращает ассоциативный анализ из пакетного алгоритма в исследовательский инструмент, позволяющий аналитикам выдвигать и проверять гипотезы в режиме реального времени.

Для иллюстрации практической применимости предложенной методологии рассмотрим гипотетический сценарий ее использования. При формировании транзакций состояния рынка на основе исторических данных за пятилетний период и применении алгоритма Apriori с порогом поддержки 0,02 и достоверности 0,7 могут быть обнаружены правила, отражающие устойчивые взаимосвязи между движениями различных активов и макроэкономическими индикаторами. Например, правило, согласно которому рост цен на энергоносители в сочетании с повышением индекса волатильности VIX выше определенного уровня с высокой вероятностью предшествует росту в технологическом секторе, демонстрирует практическую ценность такого анализа. Аналитик может использовать интерактивные визуализации Power BI для проверки обнаруженных правил, выбирая их в таблице и наблюдая на временной шкале все периоды, когда выполнялись условия антецедента, что позволяет оценить устойчивость и экономическую содержательность выявленных зависимостей. Такой подход дает возможность не только генерировать гипотезы для инвестиционных стратегий, но и проводить их визуальную валидацию на исторических данных.

Практическая значимость предложенной методологии заключается в возможности ее непосредственного применения в деятельности финансовых институтов. В инвестиционных компаниях и хедж-фондах она может служить дополнительным инструментом стратегического и тактического анализа для выявления сложных рыночных аномалий и зависимостей между активами. В риск-менеджменте методология позволяет выявлять комбинации факторов, с высокой вероятностью предшествующих периодам повышенной волатильности, что способствует улучшению моделей управления портфельными рисками. В FinTech-разработках результаты могут быть использованы как основа для создания новых аналитических сервисов, предоставляющих клиентам инсайты о структурных взаимосвязях на рынке. Кроме того, разработанный подход может служить наглядным примером применения методов интеллектуального анализа данных к решению практических экономических задач в образовательном процессе.

Таким образом, в статье предложена методологическая основа для систематического применения технологии ассоциативного анализа к данным фондового рынка с использованием современных BI-платформ. Выявлены и систематизированы ключевые методологические проблемы, включая дискретизацию непрерывных данных, учет временной структуры, фильтрацию шума и интерпретацию результатов. Разработана пятиэтапная методология, объединяющая сбор и интеграцию данных, предметно-ориентированную дискретизацию, формирование временных транзакций, извлечение ассоциативных правил с использованием алгоритмов Apriori и FP-Growth, а также интерактивную визуализацию в среде Microsoft Power BI. В отличие от существующих изолированных кейс-анализов, предлагаемый подход обеспечивает целостность и воспроизводимость аналитического процесса благодаря интеграции всех этапов в единой BI-среде. Представленная работа является первым теоретическим этапом магистерского исследовательского проекта. Последующие этапы будут включать полную программную реализацию предложенной методологии, проведение вычислительных экспериментов на реальных исторических данных, а также валидацию сформулированных гипотез об экономической значимости и предсказательной силе извлекаемых ассоциативных правил. Ожидается, что результаты исследования заполнят существующий пробел между теоретическим потенциалом ассоциативного анализа и его практическим применением в финансовой аналитике, предоставив воспроизводимый инструмент для выявления скрытых многомерных зависимостей на современных финансовых рынках.

Литература:

Agrawal R., Srikant R. Fast Algorithms for Mining Association Rules in Large Databases // Proceedings of the 20th International Conference on Very Large Data Bases. Santiago, 1994. P. 487–499.
Chen Y., Zhang L. Application of association rule mining in stock market analysis // Journal of Financial Data Science. 2020. Vol. 2. No. 3. P. 45–58.
Wang J., Li X. Combining technical indicators with association rules for stock trend prediction // Expert Systems with Applications. 2019. Vol. 128. P. 123–135.
Ferrari A., Russo M. Introducing Microsoft Power BI. Redmond: Microsoft Press, 2021. 256 p.
Han J., Pei J., Yin Y. Mining frequent patterns without candidate generation // ACM SIGMOD Record. 2000. Vol. 29. No. 2. P. 1–12.

Молодой учёный

Применение технологии ассоциативного анализа к данным биржевых рынков с использованием BI-платформ

Применение технологии ассоциативного анализа к данным биржевых рынков с использованием BI-платформ

Молодой учёный