Дистилляция знаний для малых языковых моделей: алгоритм с обратной связью

Мишагина Валерия Юрьевна

Одним из ключевых направлений в развитии искусственного интеллекта в последнее время становятся большие языковые модели (large language models, LLM) — нейронные сети, разрабатываемые для понимания и генерации текста, похожего на человеческий. Ставшие прорывом в области генеративного ИИ, LLM используются для широкого спектра NLP-задач. Наибольшую популярность приобрели основанные на LLM интеллектуальные помощники (агенты), способные заменять человека в задачах коммуникации с клиентами, сбора информации и предоставления типовых консультаций. Такие агенты сейчас активно внедряются во многие информационные системы.

LLM модели обладают внушительными размерами, имеют более миллиарда параметров, обучаются на огромных массивах данных и требует больших вычислительных затрат и ресурсов. Создание полноценной LLM — это трудоемкий, дорогостоящий и ресурсоемкий процесс, который обычно требует значительных усилий целой команды людей.

В связи с трудностью обучения LLM популярность стали набирать малые языковые модели (small language models, SLM). Они имеют на порядок меньше параметров, что делает возможным их обучение и использование в ситуации ограниченности ресурсов для решения узкоспециализированных задач, связанных с обработкой естественного языка. Однако снижение размерности параметров модели ведет к значительным потерям в точности, особенно в части задач, требующих обобщения информации и сложных многоступенчатых рассуждений.

Одним из перспективных подходов к преодолению данного ограничения является дистилляция знаний — процесс передачи знаний от большой модели-учителя к компактной модели-ученику [1]. Схема дистилляции знаний приведена на Рисунке 1.

Дистилляция знаний при обучении моделей [2]

Рис. 1. Дистилляция знаний при обучении моделей [2]

Классическая дистилляция знаний предполагает обучение модели-ученика на выходных данных модели-учителя. В простейшем варианте ученик обучается воспроизводить конечный ответ учителя, что эффективно для задач классификации, но недостаточно для генеративных задач. В более общем случае используется soft-дистилляция, при которой минимизируется расхождение между распределениями вероятностей, генерируемыми учителем и учеником, например, с помощью KL-дивергенции.

Дальнейшее развитие получили методы Chain-of-Thought (CoT) [3] дистилляции, в которых в обучающую выборку включаются промежуточные шаги рассуждений, сформированные моделью-учителем. Такой подход позволяет ученику усваивать структуру логического вывода и улучшает качество решения сложных задач. Вместе с тем классическая CoT-дистилляция обладает существенным недостатком — ошибки и неточности, допущенные моделью-учителем на промежуточных этапах, переносятся в обучающую выборку, что негативно сказывается на итоговом качестве малой модели.

В рамках данной работы предлагается и описывается метод дистилляции, ориентированный на передачу не только конечных ответов, но и промежуточных шагов рассуждений с использованием модуля обратной связи. Подробная схема подхода обучения SLM модели для алгоритма дистилляции с обратной связью представлена на Рисунке 2.

Алгоритм обучения малой языковой модели методом дистилляции с обратной связью

Рис. 2. Алгоритм обучения малой языковой модели методом дистилляции с обратной связью

Эксперименты проводились на наборе данных GSM8K [4], содержащем 8500 текстовых математических задач для учеников начальной школы с ответами в несколько этапов рассуждений. Датасет был предварительно предобработан, очищен и разбит на тренировочную, валидационную и тестовую выборки с учётом сложности задач для избежания дисбаланса классов.

В качестве модели-учителя для исследования была выбрана предобученная LLM — google/flan-t5-large, в качестве модели-ученика google/flan-t5-small. Flan-T5 отличаются хорошей точностью в сочетании с небольшим количеством параметров и простотой архитектуры, что делает их удобными для использования в алгоритме дистилляции знаний.

В рамках исследования были реализованы и сравнены три подхода: baseline-дистилляция, CoT-дистилляция и предложенный метод дистилляции с обратной связью. Все алгоритмы были реализованы на языке программирования Python, в качестве фреймворков для работы с нейросетевыми моделями использовались PyTorch и Transformers.

Графики функций потерь, полученных во время обучения, приведены на Рисунке 4.

Графики функций потерь на валидационной выборке

Рис. 4. Графики функций потерь на валидационной выборке

Результирующие значения точности для алгоритмов представлены в Таблице 1.

Таблица 1

Метрика качества работы моделей нейронной сети, обученных с помощью различных алгоритмов дистилляции

	Точность (accuracy)
	Тренировочная выборка	Валидационная выборка	Тестовая выборка
Baseline	0,62	0,58	0,59
CoT	0,70	0,66	0,71
С обратной связью	0,81	0,72	0,75

Полученные в ходе эксперимента результаты показали, что предложенный метод дистилляции с обратной связью превосходит классические подходы по показателям точности на всех выборках. Существенным преимуществом является также сокращение средней длины цепочек рассуждений, что свидетельствует о том, что некоторые шаги, генерируемые моделью-учителем, являются избыточными или некорректными и могут быть опущены при обучении SML.

Анализ результатов подтверждает, что дистилляция промежуточных шагов с обратной связью позволяет снизить шум обучающей выборки и повысить устойчивость обучения малой языковой модели. Однако существуют и минусы в этом подходе, например, использование дополнительных модулей увеличивает вычислительную сложность алгоритма и значительно влияет на скорость обучения. Поэтому выбор оптимального алгоритма дистилляции для обучения малой языковой модели должен исходить из компромисса между качеством и затратами ресурсов.

Литература:

Hinton, G. Distilling the Knowledge in a Neural Network / G. Hinton, O. Vinyals, J. Dean. — DOI: arXiv:1503.02531 // ArXiv. — 2015. — Vol. abs/1503.02531.
What is LLM Distillation? // GeeksForGeeks. — [Б. м.], 2025. — URL: https://www.geeksforgeeks.org/nlp/what-is-llm-distillation/ (дата обращения: 08.01.2026).
Ho, N. Large language models are reasoning teachers / N. Ho, L. Schmid, SY. Yun. // In Proceedings of the 61st annual meeting of the association for computational linguistics. — 2023. — Vol. 1. — P. 14852–14882.
Dataset Card for GSM8K // Hugging Face. — [Б. м.], 2025. — URL: https://huggingface.co/datasets/openai/gsm8k/ (дата обращения: 08.01.2026).

Молодой учёный

Дистилляция знаний для малых языковых моделей: алгоритм с обратной связью

Дистилляция знаний для малых языковых моделей: алгоритм с обратной связью

Молодой учёный