Методы снижения вычислительной сложности инференса глубоких нейросетевых моделей

Вятскин Дмитрий Владимирович

Введение

Рост параметризации и глубины нейросетевых моделей повышает требования к вычислениям и памяти, что затрудняет перенос инференса на устройства с ограниченными ресурсами [1]. Серверный (облачный) инференс упрощает использование «тяжёлых» моделей, но добавляет сетевую задержку, требует связи и повышает риски конфиденциальности. Локальный инференс улучшает автономность и приватность, однако ограничен ресурсами устройства и часто должен эффективно исполняться на ЦП и его SIMD‑расширениях (ARM NEON, x86 AVX и др.) [1]. Эти ограничения критичны в практических доменах, где инференс является частью конвейера: распознавание лиц (детекция → выравнивание → эмбеддинг) [2] или ADAS‑сценарии с дополнительной акустической обработкой [4].

Диссертационные исследования, на которые опирается данная работа, выделяют три базовых направления компрессии/ускорения инференса: квантование, прореживание и дистилляцию знаний [1]. Данная работа систематизирует эти подходы, подчёркивая их совместимость и аппаратно‑системные ограничения.

Постановка задачи и метрики эффективности

Снижение вычислительной сложности инференса трактуется как уменьшение затрат операций и/или объёма данных (параметры, активации, трафик памяти) при сохранении приемлемого качества. На практике оптимизируется компромисс «скорость/память/энергия — точность» с учётом архитектуры сети, особенностей исполнения на ЦП и процедур дообучения/адаптации [1].

Основные эксплуатационные метрики:

— latency (задержка) и jitter для задач реального времени;

— throughput (пропускная способность);

— memory footprint (ОЗУ/ПЗУ для весов и промежуточных тензоров);

— energy/efficiency (потребляемая мощность, тепловые ограничения, время работы от батареи);

— accuracy drop (падение качества относительно полноточной модели).

Важно оценивать не только ядро нейросети, но и весь конвейер (пред‑/постобработка). Например, для акустической классификации декомпозиция задержки по этапам позволяет контролировать дедлайн 250 мс [4]. Во многих мобильных работах целевым ограничением выступает «падение точности < 1 %» при ускорении на ARM‑процессоре [3].

Классификация подходов

Методы воздействуют на разные уровни: (а) числовое представление (квантование); (б) структуру вычислительного графа (структурное прореживание); (в) обучение и перенос поведения (дистилляция) [1; 2].

Ключевой практический фактор — стоимость адаптации: объём данных (размеченных/неразмеченных), вычислительные затраты на тонкую настройку и переносимость оптимизации на целевую платформу [3].

Квантование нейросетевых моделей

Квантование снижает разрядность весов и/или активаций (например, FP32 → INT8), уменьшая память и потенциально ускоряя матричные операции при наличии эффективных низкоразрядных ядер [1]. Для ЦП важна сопоставимость вычислений с SIMD и особенностями иерархии памяти.

В работе А. В. Трусова квантование рассматривается в контексте процессоров общего назначения; предложены алгоритмы умножения матриц для 4‑битных, тернарных и тернарно‑бинарных представлений, оптимизированные под ARM NEON, а также схема «4.6‑битного» квантования как компромисс между скоростью 4‑битного режима и числом уровней [1].

Квантование с учётом обучения (QAT‑подобные подходы) позволяет уменьшить деградацию качества. А. И. Гончаренко описывает настройку масштабирующих коэффициентов/порогов квантования, что улучшает аппроксимацию значений около нуля и снижает время тонкой настройки (в несколько раз) при падении точности <1 % [3]. Подчёркивается практическая возможность адаптации по неразмеченным данным и с ограниченным числом эпох [3]. Также исследуются специализированные форматы с плавающей запятой (подбор разрядности порядка/мантиссы) без дополнительной тонкой настройки, упрощающие интеграцию в программно‑аппаратные комплексы [3]. Низкая разрядность сама по себе не гарантирует ускорения: выигрыш зависит от поддержки INT8/низких битов в инференс‑ядрах и от того, насколько «узкие места» связаны с матричным умножением/свёрткой и трафиком памяти [1]. Критичен контроль accuracy drop, особенно при 4‑битных и ниже режимах [3].

Структурное прореживание

Прореживание уменьшает избыточность модели за счёт удаления параметров или вычислительных блоков [1]. Для инференса на обычном аппаратном обеспечении принципиально различие: неструктурированное прореживание создаёт разреженные матрицы; ускорение возможно лишь при специализированных разреженных ядрах и эффективном хранении индексов; структурное прореживание удаляет каналы/фильтры/блоки/слои, уменьшает размеры тензоров и число MAC‑операций в плотных ядрах, что обычно даёт более предсказуемое ускорение на ЦП [1].

В диссертационной работе А. И. Гончаренко подчёркиваются практические трудности внедрения: выбор гранулярности, настройка гиперпараметров, компромисс «ускорение — деградация качества», а также влияние на структуру модели и конвейер разработки [3].

Концептуально ценность управляемой разреженности подтверждается и в биологически вдохновлённых моделях представления: конкурентный пространственный кодировщик с разреженной матрицей связей и механизмом синаптогенеза снижает требования к памяти и время обработки [5].

Дистилляция знаний и перенос обучения

Дистилляция обучает компактного «ученика» воспроизводить поведение более точного «учителя» (по выходам, промежуточным признакам или отношениям) [1; 4]. Это один из основных способов удержать качество при уменьшении ёмкости модели.

В задачах биометрии по лицу Д. В. Свитов показывает, что простое уменьшение числа параметров заметно снижает точность, и предлагает алгоритм дистилляции для моделей с Softmax‑функцией потерь с отступом. Отмечается полезность инициализации ученика весами последнего слоя учителя для сохранения геометрии эмбеддингов (компактность кластеров и пространственные отношения) [2].

Для акустической классификации в ADAS‑сценариях Г. М. Мкртчян рассматривает дистилляцию совместно с робастными функциями потерь как средство устойчивого обучения при шуме и выбросах; заявляется снижение влияния зашумления без значимой потери качества [4]. В качестве иллюстрации приводится достижение точности ученика >93 % при точности учителя около 97 % при очень малом числе параметров (MobileNetV3 <0,2 млн) относительно учителя (BEATs) [4].

Комбинирование методов и сценарии применения

Методы комплементарны и часто применяются совместно [1]. Типовые цепочки:

— квантование → дистилляция (восстановление качества после снижения разрядности);

— структурное прореживание → fine‑tune/дистилляция (компенсация изменения структуры);

— дистилляция → квантование (сначала компактная архитектура, затем уменьшение разрядности).

В мобильных сценариях критична стоимость тонкой настройки: цель может формулироваться как ускорение без большого объёма размеченных данных и без значимого падения качества [3]. В потоковом видео помимо «сжатия сети» эффективны системные приёмы: ранняя остановка детектора объектов по признакам промежуточных слоёв увеличивает среднюю скорость обработки кадров; в связке SSD+MobileNetV2 показаны улучшение mAP и снижение времени обработки кадра в сценарии «умного домофона» [2]. Для встроенных систем, работающих в шумной среде, важны устойчивость обучения и качество данных; робастные потери вместе с дистилляцией повышают надёжность в реальных городских условиях [4].

Современный контекст: посттренировочное сжатие и LLM

С 2023 г. заметно усилился интерес к посттренировочным (post–training) методам сжатия, что связано с высокой стоимостью обучения современных моделей и практической потребностью в развёртывании на ограниченных по памяти и пропускной способности устройствах (edge). В рамках квантования развиваются методы низкобитной weight–only квантизации больших трансформеров с опорой на приближённую второпорядковую информацию (OPTQ/GPTQ) [6], а также подходы, учитывающие распределение активаций для защиты малой доли «наиболее значимых» каналов (AWQ) [7].

В области прореживания для больших трансформеров показано, что однократное (one–shot) прореживание до высокой разреженности может сохранять качество без повторного обучения, если процедура учитывает вклад параметров в выходные ошибки слоёв; характерный пример — SparseGPT [8]. Для дистилляции знаний актуален перенос подходов на генеративные языковые модели: MiniLLM предлагает вариант дистилляции для LLM, основанный на оптимизации обратной дивергенции KL и on–policy обучении [9].

Обобщая, современные работы подчёркивают важность совместного учёта алгоритмических приёмов сжатия и аппаратно‑системных ограничений. Это отражено и в обзорных исследованиях, рассматривающих квантование, прореживание и дистилляцию как взаимодополняющие компоненты эффективного и безопасного развёртывания DNN на практике [10].

Сравнительный анализ и практические рекомендации

В таблице 1 приведена обобщенная сравнительная характеристика методов. Таблица не подменяет результаты конкретных экспериментов, а отражает качественные закономерности, описанные в диссертационных работах и типичные ограничения внедрения на центральных процессорах и встраиваемых платформах [1; 3; 4].

Таблица 1

Метод	Основной механизм ускорения	Типовой эффект (качественно)	Ключевые ограничения/риски
Квантование	Снижение разрядности весов/активаций; низкоразрядные ядра (NEON и др.)	Экономия памяти, ускорение матричных операций при аппаратной поддержке	Падение точности; необходимость дообучения/адаптации; аппаратная зависимость [1; 3]
Структурное прореживание	Удаление каналов/фильтров/блоков; уменьшение размеров тензоров	Снижение MAC‑операций и трафика памяти; более предсказуемое ускорение на ЦП	Подбор гиперпараметров; изменение архитектуры; риск деградации качества [3]
Дистилляция знаний	Обучение ученика по учителю (выходы/признаки/отношения)	Сохранение качества при уменьшении емкости; совместимость с другими методами	Наличие учителя; сложность схем обучения; переносимость на домен [2; 4]

Рекомендации для edge‑сценариев. Если целевая платформа — ЦП общего назначения (ARM/x86) и важна предсказуемость ускорения, практика диссертационных работ указывает на необходимость сочетать алгоритмические оптимизации исполнения (низкоразрядные ядра, учет памяти) с методами обучения, адаптированными под ограничения устройства [1; 3]. В таблице 2 приведены рекомендации по использованию методов снижения вычислительных затрат для конкретных сценариев.

Таблица 2

Сценарий	Главный KPI	Базовый метод	Усиление	Комментарий (основание)
Мобильное распознавание лиц (ARM)	latency/throughput при ограниченной памяти	Дистилляция + оптимизация детектора	Квантование и ранняя остановка	Сокращение разрыва «сервер/мобильный» и ускорение видео‑конвейера [2]
Акустическая классификация в ADAS	дедлайн реального времени + устойчивость к шуму	Легковесная архитектура + дистилляция	Робастные функции потерь	Стабилизация обучения при шумных данных, контроль латентности конвейера [4]
Общие мобильные CNN‑модели	баланс точность/скорость без дорогой тонкой настройки	Адаптивное квантование с тонкой настройкой порогов	Дистилляция после квантования	Ускорение без требования большого объёма разметки; контроль падения точности <1 % [3]
Встроенные системы с ограниченной памятью	memory footprint	Квантование	Структурное прореживание	Снижение объёма данных и давления на память; учет иерархии памяти [1]

Следует подчеркнуть, что «скорость» в практических системах не сводится к числу операций: в диссертационной работе А. В. Трусова отдельно выделяются особенности ЦП — иерархическая память и параллельные вычисления на уровне данных, — которые определяют реальную эффективность низкоразрядных и структурно модифицированных моделей [1]. Поэтому при внедрении желательно проводить оценку непосредственно на целевом устройстве.

Кроме того, оптимизация должна учитывать жизненный цикл модели. Методы, требующие сложной тонкой настройки и длительных экспериментов, хуже масштабируются в задачах, где модели часто обновляются или адаптируются под новые данные. В этом контексте интерес представляют схемы адаптации квантования с использованием неразмеченных данных и ограниченного числа эпох, и дистилляция как «универсальный» механизм переноса качества [2; 3].

Заключение

Систематизация исследований показывает, что снижение вычислительной сложности инференса на устройствах с ограниченными ресурсами требует одновременного учета всех трёх рассмотренных методов: квантования, структурного прореживания и дистилляции знаний [1].

Квантование обеспечивает прямую экономию памяти и может давать существенное ускорение, однако требует аппаратно‑зависимых реализаций и контроля падения качества; прикладные схемы адаптации порогов и использование неразмеченных данных для тонкой настройки повышают практическую применимость [3]. Структурное прореживание ориентировано на регулярное уменьшение объёма вычислений и лучше согласуется с оптимизированными плотными ядрами, но сопряжено с вопросами выбора гранулярности и подбора гиперпараметров [3]. Дистилляция выступает универсальным механизмом переноса качества от более емких моделей к легковесным, включая сценарии устойчивого обучения в шумных доменах [2].

Практическая рекомендация, вытекающая из рассмотренных работ, состоит в том, чтобы оценивать эффективность оптимизаций на целевой платформе и рассматривать ускорение как свойство всего конвейера обработки (пред– и постобработка, частота вызовов моделей), а не только ядра инференса нейросети [2; 4].

Литература:

Трусов, А. В. Квантованные нейросетевые модели для процессоров общего назначения с ограниченными ресурсами: специальность 1.2.2 «Математическое моделирование, численные методы и комплексы программ»: автореферат на соискание ученой степени кандидата технических наук / Трусов Антон Всеволодович; МФТИ. — М., 2025. — 30 с. — Текст: непосредственный.
Свитов, Д. В. Оптимизация производительности свёрточных нейронных сетей в системе распознавания лиц: специальность 1.2.2 «Математическое моделирование, численные методы и комплексы программ»: автореферат на соискание ученой степени кандидата технических наук / Свитов Давид Вячеславович; ИАиЭ СО РАН. — Новосибирск, 2023. — 18 с. — Текст: непосредственный.
Гончаренко, А. И. Высокопроизводительные нейронные сети глубокого обучения для устройств с низкими вычислительными ресурсами Sources: специальность 1.2.2 «Математическое моделирование, численные методы и комплексы программ»: автореферат на соискание ученой степени кандидата технических наук / Гончаренко Александр Игоревич; ИАиЭ СО РАН. — Новосибирск, 2023. — 16 с. — Текст: непосредственный.
Мкртчян, Г. М. Разработка методов и средств нейросетевой обработки акустической информации: специальность 2.3.8 «Информатика и информационные процессы»: автореферат на соискание ученой степени кандидата технических наук / Мкртчян Грач Маратович; МТУСИ. — М., 2025. — 24 с. — Текст: непосредственный.
Кудеров, П. В. Разработка методов и алгоритмов представления информации в обучении с подкреплением с использованием биологических принципов: специальность 5.12.4 «Когнитивное моделирование»: автореферат на соискание ученой степени кандидата физико-математических наук / Кудеров Петр Викторович; МФТИ. — Долгопрудный, 2024. — 36 с. — Текст: непосредственный.
OPTQ: Accurate Quantization for Generative Pre–trained Transformers / E. Frantar, S. Ashkboos, T. Hoefler, D. Alistarh. — Текст: непосредственный // ICLR 2023. — 2023.
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration / J. Lin, J. Tang, H. Tang [и др.]. — Текст: непосредственный // arXiv. — 2023. — № 2306.00978.
Frantar, E. SparseGPT: Massive Language Models Can Be Accurately Pruned in One–Shot / E. Frantar, D. Alistarh. — Текст: непосредственный // arXiv. — 2023. — № 2301.00774.
MiniLLM: Knowledge Distillation of Large Language Models / Y. Gu, L. Dong, F. Wei, M. Huang. — Текст: непосредственный // arXiv. — 2023. — № 2306.08543.
From Algorithm to Hardware: A Survey on Efficient and Safe Deployment of Deep Neural Networks. — Текст: непосредственный // arXiv. — 2024. — № 2405.06038.

Молодой учёный

Методы снижения вычислительной сложности инференса глубоких нейросетевых моделей

Методы снижения вычислительной сложности инференса глубоких нейросетевых моделей

Молодой учёный