Анализ больших данных с использованием больших языковых моделей: роль языковых моделей в автоматизации аналитических процессов

Шеварев Максим Владимирович

Введение

Инфраструктуры больших данных долгое время строились вокруг хранилищ, вычислительных движков, ETL-процессов и специализированных аналитических инструментов. В такой архитектуре основной гарантией надежности выступали формальные элементы: схема данных, типы, ограничения, SQL-запросы, регламенты качества и заранее описанные метрики. Появление больших языковых моделей изменило не саму природу данных, а способ взаимодействия аналитика с ними: всё чаще работа начинается не с готового запроса, а с естественно-языкового намерения, которое затем должно быть переведено в формальную процедуру.

В современной литературе это направление описывается через связку LLM4Data и Data4LLM. Первая линия относится к применению больших языковых моделей для управления, очистки, поиска, интерпретации и анализа данных; вторая — к использованию методов управления данными для подготовки, обслуживания и инференса самих моделей [1]. Близкую по смыслу рамку задает данно-центричный искусственный интеллект: в нем качество, жизненный цикл и сопровождаемость данных рассматриваются не как второстепенное условие, а как самостоятельный предмет проектирования [2].

При этом LLM нельзя рассматривать как новое универсальное ядро аналитики. Работы по применению крупных языковых моделей в управлении данными показывают, что они полезны там, где требуется перевод между представлениями: текстом, таблицей, схемой, программным кодом, запросом и объяснением результата [3], [4]. Но в задачах строгого вычисления, контроля типов, соблюдения схемы и воспроизводимости модель должна опираться на внешние инструменты исполнения и проверки.

Цель статьи состоит в том, чтобы систематизировать роли LLM в конвейере больших данных и предложить простую теоретическую модель их применения. В статье не утверждается, что языковые модели способны заменить классические средства анализа. Напротив, основной тезис состоит в другом: наибольшую ценность LLM дают тогда, когда встроены в управляемый контур, где генерация отделена от верификации, а итоговый результат может быть проверен формальными средствами.

Концептуальная рамка LLM4Data и Data4LLM

Пара LLM4Data / Data4LLM удобна тем, что не смешивает две разные стороны одной проблемы. LLM4Data отвечает на вопрос, как языковые модели могут помогать при работе с данными: понимать таблицы, предлагать варианты очистки, связывать пользовательский вопрос со схемой, формировать SQL-запрос, описывать результат и готовить документацию. Data4LLM, в свою очередь, отвечает на вопрос, какие данные, индексы, контекст, кэши, векторные базы и контуры сервинга нужны для устойчивой работы самих моделей [1], [4].

Смысл такой рамки особенно заметен на табличных и схемо-ориентированных задачах. Исследования по обработке таблиц показывают, что LLM способны работать с табличными структурами, но их ответы чувствительны к способу представления таблицы, порядку полей, сериализации и полноте контекста [5], [6]. Поэтому табличная аналитика с участием LLM требует не только сильной модели, но и аккуратной подготовки схемы, метаданных и проверочных правил. Отдельные работы по задачам над таблицами прямо показывают, что использование LLM в таких сценариях становится самостоятельным направлением, а не частным случаем обычной обработки текста [7].

Отдельное место занимает Text-to-SQL — перевод естественно-языкового вопроса в формальный запрос к базе данных. Обзоры по этой теме фиксируют быстрый рост качества LLM-подходов, но одновременно подчеркивают зависимость результата от schema linking, примеров, подсказок и постпроверки [8]. Экспериментальные оценки показывают, что даже сильные модели могут давать синтаксически правдоподобные, но семантически неверные запросы, если контекст схемы неполон или бизнес-правила не зафиксированы явно [9].

В задачах очистки данных и подготовки признаков LLM полезны не столько как автоматический исполнитель, сколько как генератор гипотез. Они могут предлагать контекстные правила, восстанавливать неоднозначные значения, подсказывать преобразования и помогать в feature engineering [10], [11], [12]. Однако любое такое предложение должно проходить через формальные ограничения, тесты, журналирование изменений и, в спорных случаях, проверку человеком.

Еще одна линия исследований связана с документацией и прозрачностью наборов данных. Подходы Datasheets for Datasets и Data Cards показывают, что датасет должен сопровождаться сведениями о происхождении, составе, ограничениях, допустимых сценариях использования и возможных рисках [13], [14]. Языковые модели способны ускорить подготовку таких описаний, но не могут сами быть окончательным источником ответственности. Более поздние обзоры инструментов документации также показывают, что главная сложность состоит не только в написании текста, но и во встраивании документации в рабочий процесс [15].

Наконец, LLM заметно усиливают слой объяснения результатов. Исследования по data-to-text generation рассматривают преобразование структурированных данных в связное текстовое описание как отдельную задачу [16]. В прикладных сценариях вроде анализа логов языковые модели используются не только для обнаружения аномалий, но и для объяснения возможных причин их появления [17]. В более широком виде эта логика ведет к инструментально-усиленным LLM и агентным системам, где модель планирует действия, вызывает внешние инструменты, анализирует промежуточные результаты и передает итог человеку [18], [19].

Общая логика применения LLM в конвейере больших данных

Рис. 1. Общая логика применения LLM в конвейере больших данных

Авторская классификация ролей LLM

Для описания места LLM в аналитическом pipeline предлагается не инструментальная, а функциональная классификация. Она исходит из того, на какой объект воздействует модель: сырые данные, схему, пользовательский вопрос, вычислительный результат или итоговый аналитический текст. По этому признаку можно выделить пять ролей.

Первая роль — ассистент очистки. В этой роли LLM помогают выявлять пропуски, дубли, неоднозначные категории, противоречивые единицы измерения и контекстные ошибки. Их ценность состоит в способности учитывать не только статистику распределений, но и смысловое окружение записи. В то же время именно здесь особенно опасны тихие ошибки: правдоподобная, но неверная правка может перейти во все последующие стадии анализа [10], [11]. Поэтому ассистент очистки должен предлагать варианты исправления, но не заменять проверяемую процедуру изменения данных.

Вторая роль — семантический интерпретатор. Она нужна там, где схема бедно описана, названия полей неполны, а источники содержат сочетание таблиц, кодов, текстов и доменных терминов. LLM может помочь связать формальную структуру с предметным смыслом: предложить описание поля, вероятный тип сущности, связь между таблицами или ограничение использования датасета. Но такая интерпретация должна подтверждаться владельцами данных и метаданными, иначе она превращается в догадку, оформленную как уверенное объяснение [5], [6], [13], [14].

Третья роль — агент генерации запросов. В этом режиме LLM переводит вопрос пользователя в SQL, NL2Viz-команду или другой формальный язык доступа. Эта роль особенно заметна в BI-сценариях, где необходимо снизить порог входа для пользователей, не владеющих языком запросов. Однако запрос, созданный LLM, должен исполняться в контролируемой среде и проверяться на соответствие схеме, правам доступа и допустимым агрегациям [8], [9].

Четвертая роль — контролер качества. В отличие от предыдущих ролей, она не столько создает новый артефакт, сколько проверяет уже полученный: сопоставляет текстовый вывод с агрегатами, ищет противоречия в рассуждении, проверяет типы и ограничения, требует повторного запуска инструмента и фиксирует происхождение результата. Эта роль принципиальна, потому что исследования по оценке LLM и галлюцинациям показывают: убедительная форма ответа не является доказательством его корректности [20], [21].

Пятая роль — интерпретатор результатов. Здесь LLM превращает таблицу, график, лог, набор метрик или результат модели в понятное объяснение для исследователя, руководителя или аудитора. Такая роль полезна при подготовке отчетов, пояснении аномалий и документировании выводов. Но и в этом случае текст должен быть привязан к исходным числам: языковая модель не должна свободно достраивать причины там, где данные показывают только корреляцию или описание [16], [17].

Матрицы применения ролей

Первую матрицу удобно построить по этапам аналитического pipeline. Она показывает, где роль LLM является основной, где вспомогательной, а где её использование допустимо только эпизодически. Важно, что одна роль может сопровождать несколько этапов, а один этап может включать несколько ролей.

Таблица 1

Матрица соответствия ролей LLM этапам аналитического pipeline

Этап	Оч.	Сем.	Запр.	Контр.	Интерпр.
Получение и профилирование	△	○	—	○	—
Очистка и нормализация	◎	○	—	◎	—
Семантическое выравнивание схем и метаданных	○	◎	○	○	△
Доступ к данным и BI-запросы	—	○	◎	○	○
Подготовка признаков	○	○	△	○	—
ML-этап и оценка результатов	—	△	△	◎	○
Мониторинг и анализ аномалий	○	○	—	◎	◎
Объяснение, отчетность, документация	—	○	△	○	◎

Обозначения: ◎ — основная роль; ○ — вспомогательная роль; △ — эпизодическая роль; — — нецелесообразно использовать как основной механизм.

Из таблицы 1 следует, что LLM не стоит описывать одной общей формулой «аналитический помощник». На ранних стадиях они помогают прояснять смысл данных и предлагать варианты преобразований, но требуют жесткой проверки. На поздних стадиях их ценность смещается к объяснению, подготовке текста и поддержке коммуникации между аналитиком и пользователем.

Таблица 2

Матрица применения ролей LLM по архитектурным измерениям

Роль	Тип данных	Скорость обновления	Требования к качеству
Ассистент очистки	Таблицы, логи, текстовые поля	Низкая-средняя; потоковый режим только с правилами	Очень высокие; обязательна внешняя проверка
Семантический интерпретатор	Схемы, метаданные, смешанные артефакты	Средняя-высокая	Высокие; допустима человеко-машинная редактура
Агент генерации запросов	Структурированные и полуструктурированные данные	Высокая, интерактивная	Очень высокие; нужна sandbox-проверка
Контролер качества	Все данные и промежуточные артефакты	Любая, особенно непрерывная	Критические
Интерпретатор результатов	Агрегаты, графики, логи, summary-артефакты	Периодическая или интерактивная	Высокие; обязателен числовой grounding

Таблица 3

Роль	Стоимость хранения	BI-нагрузка	ML-нагрузка	Governance
Ассистент очистки	Средняя из-за версионирования и логов ремонта	Средняя	Высокая	Очень высокие
Семантический интерпретатор	Низкая-средняя	Высокая	Средняя	Высокие
Агент генерации запросов	Низкая	Очень высокая	Низкая-средняя	Очень высокие
Контролер качества	Средняя-высокая из-за аудита и provenance	Высокая	Высокая	Максимальные
Интерпретатор результатов	Низкая	Очень высокая	Средняя	Высокие

Таблицы 2 и 3 показывают, что выбор роли зависит не от популярности LLM как технологии, а от профиля нагрузки. Если доминирует интерактивная BI-аналитика, наиболее заметным становится агент генерации запросов, но его необходимо связывать с контролером качества. Если приоритетом являются ML-задачи и подготовка признаков, большее значение получают ассистент очистки и семантический интерпретатор. В регуляторно чувствительных контурах все роли должны подчиняться требованиям governance и аудита.

Риски и ограничения применения LLM

Использование LLM в аналитике больших данных порождает не только локальные ошибки, но и системные риски. Первый риск — галлюцинации. Модель может уверенно объяснить аномалию, предложить преобразование или сформировать запрос, который выглядит профессионально, но не подтверждается исходными данными [21]. Второй риск — утечка данных через prompts, retrieval, внешние API или запоминание фрагментов обучающих данных [22], [23], [24]. Третий риск — потеря воспроизводимости, когда результат зависит от версии модели, промпта, температуры вывода, состава контекста и загрязнения бенчмарков [20], [25], [26].

Поэтому зрелая архитектура LLM4Data должна строиться не как свободный чат с данными, а как контролируемый контур. Минимальный вариант такого контура включает retrieval и контекст схемы, инструменты исполнения, формальные проверки, участие человека и аудит происхождения результата. Именно эта логика отражена на рисунке 2.

Минимальный контур надежности LLM-аналитики

Рис. 2. Минимальный контур надежности LLM-аналитики

Таблица 4

Основные риски применения LLM в аналитике больших данных

Риск	Где проявляется сильнее всего	Теоретический эффект	Минимальный контур снижения риска
Галлюцинации	Очистка, генерация запросов, объяснение результатов	Ложные преобразования и интерпретации попадают в официальную аналитику	Retrieval, schema-aware ограничения, sandbox-исполнение, self-check, human review
Утечки данных	Приватные датасеты, prompts с чувствительными полями, внешние API	Нарушение конфиденциальности и нормативного соответствия	Локальный inference, редактирование чувствительных атрибутов, журнал доступа, policy enforcement
Потеря воспроизводимости	Benchmarking, агентные цепочки, long-running analysis	Невозможность повторить результат и проверить валидность вывода	Версионирование модели и промптов, фиксированные инструменты, contamination-aware оценка, аудит

Особенно важно, что перечисленные риски не устраняются простым запретом на «неправильные» промпты. Если в организации нет контроля доступа, версионирования, журналирования и политики работы с чувствительными признаками, LLM лишь делает уже существующие проблемы менее заметными. Приватность в LLM4Data связана не только с сетевой безопасностью, но и с тем, какие поля попадают в контекст модели, какие результаты сохраняются и кто может повторно использовать промежуточные артефакты [22], [23], [24].

Риск воспроизводимости также имеет академическое значение. Если одна и та же система в разные моменты времени генерирует разные правила очистки, разные SQL-запросы или разные текстовые выводы, то исследователь не может уверенно отделить устойчивый результат от случайной вариации модели. Поэтому LLM следует проектировать как вероятностного помощника, а не как самостоятельный источник аналитической истины [20], [25], [26].

Заключение

Проведенный анализ показывает, что большие языковые модели в конвейере больших данных следует рассматривать как слой семантического посредничества между человеком, данными и формальными инструментами вычисления. Они особенно полезны там, где требуется связать естественный язык с таблицей, схемой, запросом, метаданными или объяснением результата. Однако там, где требуется строгая корректность, LLM должны работать только вместе с внешней проверкой.

Предложенная классификация выделяет пять ролей LLM: ассистент очистки, семантический интерпретатор, агент генерации запросов, контролер качества и интерпретатор результатов. Эти роли не заменяют стадии pipeline, а накладываются на них и усиливают отдельные переходы между данными, формальными процедурами и аналитическим выводом.

Главный практический вывод состоит в том, что автоматизация аналитики с помощью LLM должна начинаться не с выбора модели, а с определения границ автономии. В одних случаях модель может только предлагать варианты, в других — формировать запрос для последующей проверки, в третьих — объяснять уже рассчитанные показатели. Чем выше требования к качеству, приватности и governance, тем меньше должно быть автономного исполнения и тем сильнее должен быть контур проверки.

Таким образом, LLM перспективны не как замена статистики, СУБД, BI-платформ или систем машинного обучения, а как управляемая надстройка над ними. Научная ценность предложенной рамки состоит в том, что она переводит обсуждение LLM в аналитике больших данных из общего утверждения о «полезности искусственного интеллекта» в более точный вопрос: какую роль модель выполняет, на каком этапе pipeline она подключается и каким способом проверяется ее результат.

Литература:

Li G., Wang J., Zhang C., Wang J. Data+AI: LLM4Data and Data4LLM // Companion of the 2025 International Conference on Management of Data. 2025. DOI: 10.1145/3722212.3725641.
Zha D., Bhat Z. P., Lai K.-H. et al. Data-centric Artificial Intelligence: A Survey // ACM Computing Surveys. 2025. Vol. 57, no. 5. P. 1–42. DOI: 10.1145/3711118.
Trummer I. From BERT to GPT-3 Codex: Harnessing the Potential of Very Large Language Models for Data Management // Proceedings of the VLDB Endowment. 2022. Vol. 15, no. 12. P. 3770–3773. DOI: 10.14778/3554821.3554896.
Li G., Zhou X., Zhao X. LLM for Data Management // Proceedings of the VLDB Endowment. 2024. DOI: 10.14778/3685800.3685838.
Lu W., Zhang J., Fan J. et al. Large language model for table processing: a survey // Frontiers of Computer Science. 2025. DOI: 10.1007/s11704–024–40763–6.
Liu T., Wang F., Chen M. Rethinking Tabular Data Understanding with Large Language Models // Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2024. P. 450–482. DOI: 10.18653/v1/2024.naacl-long.26.
Dong Y., Oyamada M., Xiao C., Zhang H. On the Use of Large Language Models for Table Tasks // Proceedings of the 33rd ACM International Conference on Information and Knowledge Management. 2024. DOI: 10.1145/3627673.3679100.
Shi L., Tang Z., Zhang N., Zhang X., Yang Z. A Survey on Employing Large Language Models for Text-to-SQL Tasks // ACM Computing Surveys. 2025. DOI: 10.1145/3737873.
Gao D., Wang H., Li Y. et al. Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation // Proceedings of the VLDB Endowment. 2024. Vol. 17, no. 5. P. 1132–1145. DOI: 10.14778/3641204.3641221.
Biester F., Abdelaal M., Del Gaudio D. LLMClean: Context-Aware Tabular Data Cleaning via LLM-Generated OFDs // New Trends in Database and Information Systems. 2024. DOI: 10.1007/978–3–031–70421–5_7.
Naeem Z. A., Ahmad M. S., Eltabakh M., Ouzzani M., Tang N. RetClean: Retrieval-Based Data Cleaning Using LLMs and Data Lakes // Proceedings of the VLDB Endowment. 2024. DOI: 10.14778/3685800.3685890.
Han S., Yoon J., Arik S. O., Pfister T. Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning // Proceedings of Machine Learning Research. 2024. DOI: 10.5555/3692070.3692765.
Gebru T., Morgenstern J., Vecchione B. et al. Datasheets for Datasets // Communications of the ACM. 2021. DOI: 10.1145/3458723.
Pushkarna M., Zaldivar A., Kjartansson O. et al. Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI // FAccT 2022. 2022. P. 1776–1826. DOI: 10.1145/3531146.3533231.
Reynolds-Cuéllar P., Wong-Villacres M., Alvarado Garcia A., Precel H. From Reflection to Repair: A Scoping Review of Dataset Documentation Tools // CHI 2026. 2026. DOI: 10.1145/3772318.3791344.
Sharma M., Gogineni A. K., Ramakrishnan N. Neural Methods for Data-to-text Generation // ACM Transactions on Intelligent Systems and Technology. 2024. DOI: 10.1145/3660639.
Zhang Z., Li Y. et al. LLM-LADE: Large language model-based log anomaly detection with explanation // Knowledge-Based Systems. 2025. Vol. 326. Art. 114064. DOI: 10.1016/j.knosys.2025.114064.
Essabri M. A., Rebii J., Erradi M. Tool Augmented LLMs for Big Data Analysis // Networked Systems. 2024. DOI: 10.1007/978–3–031–67321–4_7.
Sun M., Han R., Jiang B. et al. A Survey on Large Language Model-based Agents for Statistics and Data Science // The American Statistician. 2025. DOI: 10.1080/00031305.2025.2561140.
Chang Y., Wang X., Wang J. et al. A Survey on Evaluation of Large Language Models // ACM Transactions on Intelligent Systems and Technology. 2024. DOI: 10.1145/3641289.
Huang L., Yu W., Ma W. et al. A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions // ACM Transactions on Information Systems. 2025. Vol. 43, no. 2. P. 1–55. DOI: 10.1145/3703155.
Das B. C., Amini M. H., Wu Y. Security and Privacy Challenges of Large Language Models: A Survey // ACM Computing Surveys. 2025. DOI: 10.1145/3712001.
Yan B., Li K., Xu M. et al. On Protecting the Data Privacy of Large Language Models: A Survey // 2024 International Conference on Meta Computing. 2024. DOI: 10.1109/ICMC60390.2024.00008.
Carlini N., Tramèr F., Wallace E. et al. Extracting Training Data from Large Language Models // 30th USENIX Security Symposium. 2021. DOI: 10.48550/arXiv.2012.07805.
Chen S., Chen Y., Li Z. et al. Benchmarking Large Language Models Under Data Contamination: A Survey from Static to Dynamic Evaluation // Proceedings of EMNLP 2025. 2025. P. 10080–10098. DOI: 10.18653/v1/2025.emnlp-main.511.
Zhang H., Lin Y., Wan X. PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models // Findings of ACL: EMNLP 2024. 2024. DOI: 10.18653/v1/2024.findings-emnlp.97.

Молодой учёный

Анализ больших данных с использованием больших языковых моделей: роль языковых моделей в автоматизации аналитических процессов

Анализ больших данных с использованием больших языковых моделей: роль языковых моделей в автоматизации аналитических процессов

Молодой учёный