The final qualifying work is devoted to the development of an intelligent decision support system to support information systems on the 1C platform. The main task of the system is to automatically search for similar applications and historical outfits based on a text description, as well as to select relevant external sources from the Internet, which significantly reduces the time needed to analyze incidents and improve the quality of customer service.
Keywords: intelligent system, decision support system, information retrieval, semantic search, BERT, embeddings, natural language processing, NLP, machine learning, TF-IDF, recommender systems, ticket management, 1C Document Management, information systems, system maintenance, text vectorization, hybrid search, Faiss, approximate nearest neighbor search, web search, caching, REST API.
Введение
Современные IT-компании, оказывающие услуги по сопровождению информационных систем (особенно на платформе 1С), сталкиваются с растущей сложностью управления знаниями и решением типовых проблем. За многие годы деятельности компании накапливают колоссальные архивы документации — в рассматриваемом случае это порядка 350 тысяч нарядов (работ), каждый из которых содержит описание выполненной задачи и её решения. Однако при поступлении новой заявки от клиента специалист зачастую не может эффективно найти существующие решения, похожие на текущую проблему. Ручной поиск в таком объёме данных занимает дорогостоящее время и часто приводит к неполноте — специалист может упустить существующее решение просто потому, что использует другую терминологию или формулировку.
Проблема усугубляется тем, что качество обслуживания и скорость решения заявок напрямую влияют на удовлетворённость клиентов и репутацию компании. При среднем времени решения заявки 45 минут и обработке 250–310 заявок в месяц, даже небольшое сокращение времени поиска решения может привести к значительной экономии ресурсов. Кроме того, молодые специалисты лишаются возможности быстро обучиться на примерах исторических решений, что замедляет их адаптацию на должности.
Актуальность работы обусловлена необходимостью разработки интеллектуальной системы, способной автоматизировать поиск похожих заявок на основе их текстового описания. Такая система должна не только находить точные совпадения по ключевым словам, но и понимать смысловое содержание текста, отражать контекст проблемы и выдавать релевантные результаты даже при различных формулировках одной и той же проблемы.
Целью работы является разработка и внедрение интеллектуальной системы поддержки принятия решений, которая автоматизирует процесс поиска похожих заявок в архиве исторических нарядов, используя методы семантического анализа и машинного обучения. Система должна обеспечить сокращение времени на анализ заявок и повысить качество поиска решений.
Объектом исследования являются процессы поиска и обработки информации в системах управления заявками и нарядами на платформе 1С:Документооборот. Предметом исследования является методология разработки и оценки гибридных систем информационного поиска, комбинирующих методы семантического анализа (BERT), классические лексические методы (TF-IDF) и приближённый поиск ближайших соседей (Faiss).
Теоретический анализ
Системы информационного поиска (Information Retrieval, IR) — это область компьютерной науки, занимающаяся поиском релевантной информации в больших объёмах неструктурированного текста. Традиционно IR системы основывались на лексических методах, таких как TF-IDF (Term Frequency — Inverse Document Frequency), которые рассчитывают важность каждого слова в документе с учётом его распространённости в корпусе. Однако такие методы имеют ограничение: они не понимают смысл текста и не могут связать синонимичные термины или найти документы, которые решают аналогичную проблему, но используют другую терминологию.
Революция в области NLP произошла с появлением трансформерных моделей, в частности BERT (Bidirectional Encoder Representations from Transformers). BERT позволяет кодировать текст в плотные векторные представления (эмбеддинги), которые отражают семантическое содержание текста. Эти эмбеддинги можно использовать для вычисления семантической близости между документами: документы с похожим смыслом будут иметь близкие векторные представления. Модели семейства SentenceTransformer специально обучены на задачах семантического сходства и обеспечивают ещё лучшие результаты при работе с предложениями и короткими текстами.
Однако использование BERT на больших датасетах (350+ тыс. документов) требует перебора всех эмбеддингов для каждого запроса, что может быть медленным. Здесь на помощь приходят методы приближённого поиска ближайших соседей (Approximate Nearest Neighbor, ANN). Библиотека Faiss от Facebook AI Research предоставляет различные структуры индексов для быстрого поиска похожих векторов: от простого flat индекса (точный поиск) до сложных структур типа IVF (Inverted File List) и HNSW (Hierarchical Navigable Small World Graphs). Использование ANN позволяет сократить время поиска с десятков секунд до долей секунды, при этом жертвуя только небольшой частью точности.
Современный подход — это гибридные системы, которые комбинируют несколько методов. Например, система может использовать BERT для семантического понимания, TF-IDF для учёта лексических совпадений, а Faiss для быстрого поиска кандидатов. Кроме того, при ранжировании результатов можно учитывать дополнительные факторы, такие как свежесть документа (более новые решения могут быть более актуальными), популярность решения, или его релевантность контексту.
Системы поддержки принятия решений (Decision Support Systems, DSS) — это информационные системы, которые помогают пользователю принимать обоснованные решения. DSS часто комбинируют различные источники информации, модели анализа и рекомендации. В контексте данной работы DSS используется для рекомендации похожих решений специалисту по сопровождению.
Важным аспектом является оценка качества IR систем. Основные метрики: Precision (какой процент выданных результатов релевантен), Recall (какой процент всех релевантных документов найден), Mean Reciprocal Rank (MRR) — средний обратный ранг первого релевантного результата. Также используются субъективные оценки пользователей (Mean Opinion Score, MOS).
Методика
Работа включает три основных этапа: проектирование архитектуры, разработка и тестирование системы, пилотное внедрение.
Этап 1: Проектирование архитектуры: на основе анализа требований выбран микросервисный подход. Система состоит из отдельного веб-сервиса на FastAPI, который взаимодействует с 1С:Документооборот через REST API. Такой подход обеспечивает слабую связанность компонентов и позволяет независимо развивать и развёртывать систему поиска.
Архитектура включает следующие компоненты:
- REST API Router — точка входа для запросов,
- Query Preprocessor — предварительная обработка текста (нормализация, лемматизация),
- BERT Engine — семантический поиск через эмбеддинги,
- TF-IDF Engine — лексический поиск,
- Faiss Engine — приближённый поиск ближайших соседей с гибридным ранжированием,
- Web Engine — поиск внешних источников через DuckDuckGo,
- Config Manager — управление конфигурацией в формате JSONC,
- Logging System — расширенное логирование,
- Cache Manager — управление кэшами,
- Index Manager — управление индексами.
Этап 2: Выбор технологий: язык программирования: Python 3.x (обширная экосистема ML/NLP). Веб-фреймворк: FastAPI (встроенная асинхронность, простота). BERT: sentence-transformers (готовые модели для русского языка). Лексический поиск: scikit-learn (TF-IDF, KNeighbors). ANN: Faiss (быстрый поиск). Веб-поиск: ddgs (DuckDuckGo API без ключа). Обработка текста: pymorphy2 (лемматизация русского языка), trafilatura (извлечение контента из HTML). Валидация: Pydantic. ASGI сервер: uvicorn.
Этап 3: Подготовка данных: данные о нарядах загружаются из CSV файла. Выполняется предварительная обработка: выбор релевантных колонок (описание, решение, дата, контрагент), объединение текстов, хеширование датафрейма для отслеживания изменений. На основе хеша вычисляется сигнатура — уникальный идентификатор набора данных и параметров модели.
Этап 4: Построение индексов: для каждого наряда вычисляется BERT-эмбеддинг (768-мерный вектор). Эмбеддинги сохраняются в pickle файл (~1 ГБ для 350 тыс. документов). Отдельно строится TF-IDF матрица с параметрами: ngram_range=(1,2), min_df=2, max_df=0.95, max_features=5000. На основе BERT-эмбеддингов строится Faiss индекс (по умолчанию тип IVF для баланса скорости и точности). Все индексы кэшируются и переиндексируются еженедельно.
Этап 5: Конфигурация системы: Конфигурация хранится в файле config.jsonc (JSON с комментариями), включает разделы: paths, columns, ui, search, bert, tfidf, faiss, web, search.hybrid. Система поддерживает runtime overrides — изменение параметров без перезапуска. Все изменения логируются в config_changes.log с временными метками.
Этап 6: Гибридное ранжирование: При поиске система использует формулу: score = w_faiss × sim_faiss + w_tfidf × sim_tfidf + w_recency × exp(-age/half_life), где веса настраиваются через конфигурацию. Это позволяет балансировать между семантической релевантностью, лексическими совпадениями и свежестью решения.
Экспериментальная часть
Для объективной оценки качества системы была подготовлена выборка из 500 нарядов, охватывающая различные типы задач (доработки, расчёты, интеграции, исправления). Для каждого наряда было сформировано 3–5 вариантов типовых заявок, которые специалист мог бы написать при обращении с аналогичной проблемой. Это обеспечило реалистичность тестирования, так как пользователи обычно используют различные формулировки.
Вручную было определено множество релевантных нарядов для каждой тестовой заявки, составив «золотой стандарт» (ground truth) для оценки качества.
Заключение
Разработанная система успешно решает поставленную задачу — автоматизирует поиск похожих решений и снижает время на анализ заявок. Гибридный подход с использованием Faiss обеспечивает лучший компромисс между точностью и скоростью. Пилотное внедрение подтвердило практическую полезность системы. Система готова к production deployment и расширению внедрения в компании.
Литература:
- Retrieval Augmented Generation-Based Incident Resolution Recommendation System for IT Support. — 2024. — 6 сентября. — URL: https://arxiv.org/abs/2409.03765 (дата обращения: 12.11.2025).
- Лязгутова, А. В., Ларченко, Б. Б. Интеллектуальные системы поддержки принятия решений в организациях высшего образования: возможности и ограничения / А. В. Лязгутова, Б. Б. Ларченко // Вестник Волгоградского государственного университета. — 2020. — № 4. — С. 17–26. — URL: https://vestnik.volbi.ru (дата обращения: 12.11.2025).
- Проектирование систем поддержки управления природно-техногенной безопасностью территорий с использованием онтологий / Вестник ВГУ. — 2021. — URL: https://journals.vsu.ru (дата обращения: 12.11.2025).
- Никишин, И. В. Применение методов машинного обучения для автоматизированной классификации и маршрутизации в библиотеке ITIL / И. В. Никишин // Вестник АСТЭ. — 2022. — 30 января. — URL: https://vestnik.astu.org (дата обращения: 12.11.2025).
- Реализация методов искусственного интеллекта в обработке естественного языка с использованием технологий больших данных / Zenodo. — 2024. — 7 ноября. — URL: https://zenodo.org (дата обращения: 12.11.2025).

