Цифровая герменевтика. Применение технологий искусственного интеллекта для анализа исторических правовых текстов

Ковалев Егор Юрьевич

The article examines the possibilities and limitations of applying artificial intelligence (AI) technologies, primarily large language models (LLMs), to the analysis of historical legal documents. It analyzes how the «digital turn» is transforming the methodology of historical and legal research, addressing key issues such as «hallucinations», cultural bias, and context limitation. The use of LLMs as auxiliary tools for primary source processing and hidden pattern identification is substantiated. Attention is given to RAG (Retrieval-Augmented Generation) technology and the role of learnability methodology. As a methodological contribution, a specific pipeline for applying RAG to historical-legal analysis is proposed. The conclusion is drawn about the formation of a new direction — digital hermeneutics of the historical source — and practical recommendations are offered. The work is of a review and methodological nature.

Keywords: artificial intelligence, large language models, digital hermeneutics, historical-legal analysis, RAG, validation.

Введение

Актуальность исследования. Стремительное развитие технологий искусственного интеллекта (ИИ), особенно больших языковых моделей (Large Language Models, LLM), в 2025–2026 гг. переводит их из области футурологических дискуссий в актуальную методологическую проблему [1, с. 87]. Способность LLM обрабатывать массивы текстов, реконструировать повреждённые фрагменты и генерировать нарративы ставит перед историками, в том числе в области истории государства и права, принципиально новые вызовы: эти технологии требуют переосмысления традиционных практик работы с историческими источниками [2, с. 88].

Для историка права внедрение ИИ — это эволюция от простого инструментария к фундаментальной смене парадигмы. [5, с. 308]. Как отмечает А. Ю. Володин, процесс формализации исторических данных не является нейтральной технической операцией; это форма цифровой герменевтики, требующая критической рефлексии, с неизбежными потерями нюансов и рисками предвзятости алгоритмов [1, с. 90].

Цель и новизна исследования. Целью настоящей работы является не просто обзор существующих практик, а разработка и обоснование конкретного методологического подхода — «цифровой герменевтики» — для анализа историко-правовых текстов с использованием LLM. Научная новизна заключается в том, что в отличие от существующих обзорных работ, предлагается структурированный алгоритм (пайплайн) интеграции LLM в исследовательский процесс, а также формулируются критерии верификации результатов.

Задачи исследования:

классифицировать методы работы LLM с историческими правовыми текстами;
выявить ключевые методологические проблемы (галлюцинации, предвзятость, контекстная ограниченность);
предложить и детализировать применимый для историка права RAG-алгоритм;
сформулировать практические рекомендации по интеграции.

1. Технологические основы и современные практики

1.1. Классификация LLM-инструментов

Современные LLM могут применяться в историко-правовых исследованиях для решения следующих задач [4, с. 5]:

Извлечение структурированной информации (именованные сущности, даты, названия законов).
Базовая обработка текста: распознавание символов (OCR), нормализация, лемматизация [3].
Семантический анализ: отслеживание изменения значения правовых понятий, выявление интертекстуальных связей [2, с. 11].
Реконструкция и перевод: восстановление повреждённых фрагментов, перевод с архаичных языков [10, с. 8].

Особого внимания заслуживают RAG-системы (Retrieval-Augmented Generation). Они не опираются исключительно на внутренние «знания», а динамически извлекают релевантные фрагменты из заданного набора документов [10, с. 12]. RAG-подход позволяет преодолеть ключевые ограничения генеративных моделей: галлюцинации, «чёрный ящик» и оторванность от источников [1, с. 94].

1.2. Кейс: дообучение больших языковых моделей, работающих с текстом, для исторических баз данных

Примером использования LLM в исторических исследованиях служит работа Г. В. Кнутсена, опубликованная в Digital Scholarship in the Humanities (2026) [2, с. 3]. На примере биографической базы данных исследователь демонстрирует, как дообученные модели LLM могут выполнять работу квалифицированного ассистента. [2, с. 5]. Ключевой вывод: open-source модели обеспечивают стабильность и воспроизводимость, критичные для долгосрочных исторических проектов [2, с. 9].

1.3. Технологии AI-распознавания

AI-распознавание — перспективное направление для работы с плохо сохранившимися источниками (берестяные грамоты, древние списки законов) [3]. В 2025 г. был представлен проект оцифровки «Дигест» Юстиниана с использованием AI-OCR. На семинаре в Институте Макса Планка в 2026 г. обсуждалось использование LLM для прослеживания рецепции римского права в японском праве [3].

2. Методологические проблемы и ограничения

2.1. Проблема галлюцинаций

«Галлюцинациями» называют генерацию правдоподобной, но ложной информации [7, с. 2]. Исследование, посвящённое выявлению галлюцинаций в юридических задачах, показало, что у ChatGPT-4 он составляет 58 %, а у LLaMA 2–88 % [7, с. 5]. Следовательно, ни один результат, полученный с помощью LLM, не может быть принят без проверки по первоисточнику.

2.2. Методологии верификации

Для борьбы с галлюцинациями предложены следующие подходы [8, с. 3]:

Методология «обучаемости» (learnability framework): систематическая проверка надёжности извлечения информации (на корпусе османских правовых текстов) [8, с. 12].
Технология RAG: модель опирается на конкретные документы, позволяя проверять источники [10, с. 22].
Использование open-source моделей: обеспечивают стабильность и воспроизводимость [2, с. 8].

2.3. Культурная предвзятость и контекстная ограниченность

LLM обучаются на текстах, отражающих западные правовые нарративы, что может приводить к искажению при анализе российских правовых институтов [11, с. 3]. Например, институт «кормления» в Московском государстве может быть ошибочно интерпретирован как «коррупция» без учёта исторического контекста. Кроме того, ограниченный размер контекстного окна LLM (у GPT-4 — около 200–300 страниц) делает невозможным анализ больших законодательных корпусов без применения RAG [2, с. 6].

2.4. Методология исследования: предлагаемый RAG- алгоритм

В отличие от обзорных работ, настоящая статья предлагает конкретный методологический алгоритм (пайплайн) для применения RAG в историко-правовых исследованиях. Алгоритм включает следующие этапы:

Формирование корпуса: отбор и оцифровка (OCR) релевантных историко-правовых документов (законы, судебные решения).
Индексация и векторизация: разбиение документов на фрагменты (chunks) и создание векторных представлений (embeddings) для последующего поиска.
Формулирование запроса: исследователь задаёт вопрос на естественном языке (например, «Как менялось наказание за кражу по Соборному уложению 1649 года?»).
Поиск и генерация: RAG-система находит наиболее релевантные фрагменты и передаёт их LLM для генерации ответа с цитированием источников.
Верификация: исследователь проверяет все цитаты по оригинальным документам и корректирует запрос при необходимости.

Предлагаемый алгоритм (пайплайн) позволяет сохранить критическую роль человека-исследователя, используя LLM как ускоритель поиска и первичного синтеза. Этот алгоритм может быть реализован с использованием открытых инструментов (LangChain, LlamaIndex, открытые модели) и адаптирован к конкретным исследовательским задачам.

3. Перспективы интеграции и практические рекомендации

3.1. Приоритетные технологии.

RAG-системы, по мнению А. Ю. Володина, выступают как мощные «цифровые лупы», берущие на себя трудоёмкие задачи обработки данных и освобождающие время для критической интерпретации [1, с. 95].

3.2. Области применения.

На основе анализа выделены перспективные направления: анализ эволюции правовых понятий [1, с. 90]; сравнительно-правовой анализ рецепции институтов [3]; создание поисковых RAG-систем по оцифрованным источникам [10, с. 25].

3.3. Рекомендации для исследователя. [6, с. 509; 9, с. 17]:

Использовать RAG, ограничивая корпус проверенными источниками.
Всегда проверять ссылки по первоисточникам.
Документировать версию модели и параметры.
Отдавать предпочтение open-source моделям.
Не делегировать ИИ задачи интерпретации.

Заключение

Подводя итоги проведённого исследования, можно сформулировать несколько развёрнутых выводов, которые отражают как теоретическую значимость работы, так и её практические ограничения.

1. О трансформации методологии историко-правовых исследований.

Технологии искусственного интеллекта, особенно большие языковые модели, уже сегодня оказывают заметное влияние на методы работы с историческими правовыми источниками. Этот процесс не сводится к простой автоматизации рутинных операций; он затрагивает эпистемологические основания дисциплины. Как показал анализ, формализация текстов, их векторизация и последующая обработка нейросетями превращают источниковедческую работу в особый вид цифровой герменевтики, где интерпретация неотделима от алгоритмических решений, принимаемых на этапе подготовки данных. Это требует от исследователя не только традиционных навыков палеографии и текстологии, но и понимания логики работы LLM, осознания их ограничений и предвзятостей. Таким образом, мы являемся свидетелями формирования нового междисциплинарного направления, которое можно условно назвать «цифровой герменевтикой исторического источника» [1, с. 87].

2. О двойственной природе LLM как исследовательского инструмента.

Проведённый обзор показывает, что LLM обладают значительным потенциалом для ускорения вспомогательных операций: первичного поиска, извлечения именованных сущностей, тематического моделирования, реконструкции повреждённых фрагментов. В то же время этот потенциал может быть реализован только при строгом соблюдении двух условий: во-первых, критического отношения к результатам генерации (обязательная верификация каждой ссылки по первоисточнику), во-вторых, применения специальных методик валидации, таких как RAG, методология «обучаемости» или заземление цитат. В отсутствие обозначенных превентивных мер внедрение больших языковых моделей в исследовательский процесс чревато лавинообразной генерацией неверифицированных данных, недопустимых в сфере юриспруденции и историко-правовых исследований, где любая интерпретационная неточность ставит под сомнение достоверность ретроспективного анализа правовых институтов.

3. О ключевых рисках и способах их минимизации.

Наиболее серьёзные риски, выявленные в ходе анализа, включают:

– галлюцинации (достигающие 58–88 % на юридических запросах), которые требуют обязательной постгенерационной проверки;

– культурную предвзятость (модели, обученные на западных корпусах, навязывают чуждые правовые категории), что особенно актуально для российских исследований;

– контекстную ограниченность (невозможность охватить большие законодательные корпуса целиком), которая частично преодолевается с помощью RAG, но не полностью;

– размывание ответственности (кто отвечает за ошибки — исследователь или модель), что требует прозрачного документирования всех этапов работы с LLM.

Для минимизации этих рисков предложен комплекс мер: использование RAG-систем, предпочтение open-source моделей, фиксация версий и параметров, а также сохранение за исследователем финальной интерпретации и ответственности.

4. О методологическом вкладе работы.

Основной вклад настоящей статьи заключается не в обзоре, а в разработке конкретного, воспроизводимого алгоритма (RAG-пайплайна), который переводит дискуссию с абстрактного уровня «можно ли использовать ИИ» на практический уровень «как именно это делать». Предложенный алгоритм состоит из пяти этапов — от формирования корпуса до верификации результатов — и может быть адаптирован к различным типам историко-правовых источников. Его ценность в том, что он сохраняет центральную роль человека-исследователя, превращая LLM из потенциального «соавтора» в надёжный инструмент, подчинённый задачам источниковедческого анализа.

5. Ограничения предложенного подхода.

Следует признать, что предлагаемый алгоритм носит концептуальный характер и не был эмпирически апробирован на конкретном материале. Отсутствие количественной оценки его эффективности, сравнительного анализа с традиционными методами и статистической проверки результатов является существенным ограничением. Кроме того, работа не затрагивает вопросы работы с рукописными источниками, плохо поддающимися OCR, и не рассматривает этические аспекты, связанные с возможным искажением исторической памяти при машинной генерации нарративов. Эти пробелы могут быть восполнены в дальнейших исследованиях.

6. Перспективные направления дальнейших исследований.

На основе проведённого анализа можно выделить несколько приоритетных направлений для будущих работ:

– создание открытых размеченных корпусов российских историко-правовых документов (законодательных актов, судебных решений, нотариальных книг) для обучения и тестирования LLM;

– разработка стандартизированных протоколов валидации для RAG-систем, учитывающих специфику исторических текстов (вариативность орфографии, наличие архаизмов, разные системы датировки);

– адаптация существующих RAG-подходов (LangChain, LlamaIndex) под задачи российской правовой истории;

– проведение контролируемых экспериментов по сравнению эффективности LLM и человека-исследователя на задачах разного уровня сложности (от поиска до интерпретации);

– изучение этических аспектов использования ИИ в историческо-правовой науке, включая вопросы авторства, объективности и ответственности.

7. Практическая значимость для студента-исследователя.

Для студентов, работающих над курсовыми и дипломными проектами по истории государства и права, предложенные рекомендации могут быть полезны на этапах сбора и первичной обработки источников, особенно если объём материала велик. Однако важно подчеркнуть, что LLM не заменяют традиционное источниковедение: самостоятельное прочтение первоисточников, критический анализ контекста и синтез выводов остаются фундаментом научной работы. ИИ может выступать лишь как ускоритель вспомогательных операций, но не как замена мышлению исследователя.

В целом, статья демонстрирует, что интеграция LLM в историко-правовую науку — это не вопрос выбора, а вопрос методологической грамотности. Если использовать эти технологии осознанно, с соблюдением всех процедур валидации и сохранением критической рефлексии, они могут существенно расширить исследовательские горизонты, не ставя под угрозу научную строгость и достоверность выводов.

Литература:

Володин А. Ю. Цифровая герменевтика исторического источника: формализация как толкование // Вестник Пермского университета. Серия «История». — 2025. — № 2. — С. 87–100. — DOI: 10.17072/2219–3111–2025–2–87–100. — Текст: непосредственный.
Knutsen G. W. Fine-tuning LLAMA models for historical databases: methods, challenges, and long-term implications // Digital Scholarship in the Humanities. — 2026. — DOI: 10.1093/llc/fqag057.
Kawamoto Y., Iwata N., Sano T. From Roman Jurisprudence to Modern Japanese Statutes: Tracing the Reception of Law via LLMs and Generative AI [Электронный ресурс]: доклад на онлайн-семинаре Max Planck Institute for Legal History and Legal Theory. — 2026. — URL: https://www.lhlt.mpg.de (дата обращения: 16.06.2026).
Dehghani F., Dehghani R., Naderzadeh Ardebili Y., Rahnamayan S. Large Language Models in Legal Systems: A Survey // Humanities and Social Sciences Communications. — 2025. — Vol. 12, Article 1977. — DOI: 10.1057/s41599–025–05924–3.
Водин Д. В. Применение искусственного интеллекта как основного элемента создания информационного ресурса в исторических исследованиях // Молодой учёный. — 2025. — № 5 (556). — С. 308–311. — URL: https://moluch.ru/archive/556/ — Текст: непосредственный.
Чунькова Н. А. Правовой статус искусственного интеллекта: от электронного лица до деликтоспособности // Молодой учёный. — 2026. — № 19 (622). — С. 507–510. — URL: https://moluch.ru/archive/622/ — Текст: непосредственный.
Ovcharov V. Citation Grounding: Detecting and Reducing LLM Citation Hallucinations via Legal Citation Graphs // arXiv:2606.00898. — 2026. — P. 1–15.
Çetinkaya A. A Systems Approach to Validating Large Language Model Information Extraction: The Learnability Framework Applied to Historical Legal Texts // Information (MDPI). — 2025. — Vol. 16 (11). — P. 960. — DOI: 10.3390/info16110960.
Павленко Б. В. Искусственный интеллект как актуальный тренд содержания обучения информатике в условиях цифровизации // Молодой учёный. — 2023. — № 51 (498). — С. 15–18. — URL: https://moluch.ru/archive/498/ — Текст: непосредственный.
Gao Y., Xiong Y., Gao X. et al. Retrieval-Augmented Generation for Large Language Models: A Survey // arXiv:2312.10997v5. — 2024. — P. 1–45.
Celli F., Spathulas G. Cultural Biases of Large Language Models and Humans in Historical Interpretation // arXiv:2504.02572. — 2025. — P. 1–12.

Молодой учёный

Цифровая герменевтика. Применение технологий искусственного интеллекта для анализа исторических правовых текстов

Цифровая герменевтика. Применение технологий искусственного интеллекта для анализа исторических правовых текстов

Молодой учёный