Введение
Рост параметризации и глубины нейросетевых моделей повышает требования к вычислениям и памяти, что затрудняет перенос инференса на устройства с ограниченными ресурсами [1]. Серверный (облачный) инференс упрощает использование «тяжёлых» моделей, но добавляет сетевую задержку, требует связи и повышает риски конфиденциальности. Локальный инференс улучшает автономность и приватность, однако ограничен ресурсами устройства и часто должен эффективно исполняться на ЦП и его SIMD‑расширениях (ARM NEON, x86 AVX и др.) [1]. Эти ограничения критичны в практических доменах, где инференс является частью конвейера: распознавание лиц (детекция → выравнивание → эмбеддинг) [2] или ADAS‑сценарии с дополнительной акустической обработкой [4].
Диссертационные исследования, на которые опирается данная работа, выделяют три базовых направления компрессии/ускорения инференса: квантование, прореживание и дистилляцию знаний [1]. Данная работа систематизирует эти подходы, подчёркивая их совместимость и аппаратно‑системные ограничения.
Постановка задачи и метрики эффективности
Снижение вычислительной сложности инференса трактуется как уменьшение затрат операций и/или объёма данных (параметры, активации, трафик памяти) при сохранении приемлемого качества. На практике оптимизируется компромисс «скорость/память/энергия — точность» с учётом архитектуры сети, особенностей исполнения на ЦП и процедур дообучения/адаптации [1].
Основные эксплуатационные метрики:
— latency (задержка) и jitter для задач реального времени;
— throughput (пропускная способность);
— memory footprint (ОЗУ/ПЗУ для весов и промежуточных тензоров);
— energy/efficiency (потребляемая мощность, тепловые ограничения, время работы от батареи);
— accuracy drop (падение качества относительно полноточной модели).
Важно оценивать не только ядро нейросети, но и весь конвейер (пред‑/постобработка). Например, для акустической классификации декомпозиция задержки по этапам позволяет контролировать дедлайн 250 мс [4]. Во многих мобильных работах целевым ограничением выступает «падение точности < 1 %» при ускорении на ARM‑процессоре [3].
Классификация подходов
Методы воздействуют на разные уровни: (а) числовое представление (квантование); (б) структуру вычислительного графа (структурное прореживание); (в) обучение и перенос поведения (дистилляция) [1; 2].
Ключевой практический фактор — стоимость адаптации: объём данных (размеченных/неразмеченных), вычислительные затраты на тонкую настройку и переносимость оптимизации на целевую платформу [3].
Квантование нейросетевых моделей
Квантование снижает разрядность весов и/или активаций (например, FP32 → INT8), уменьшая память и потенциально ускоряя матричные операции при наличии эффективных низкоразрядных ядер [1]. Для ЦП важна сопоставимость вычислений с SIMD и особенностями иерархии памяти.
В работе А. В. Трусова квантование рассматривается в контексте процессоров общего назначения; предложены алгоритмы умножения матриц для 4‑битных, тернарных и тернарно‑бинарных представлений, оптимизированные под ARM NEON, а также схема «4.6‑битного» квантования как компромисс между скоростью 4‑битного режима и числом уровней [1].
Квантование с учётом обучения (QAT‑подобные подходы) позволяет уменьшить деградацию качества. А. И. Гончаренко описывает настройку масштабирующих коэффициентов/порогов квантования, что улучшает аппроксимацию значений около нуля и снижает время тонкой настройки (в несколько раз) при падении точности <1 % [3]. Подчёркивается практическая возможность адаптации по неразмеченным данным и с ограниченным числом эпох [3]. Также исследуются специализированные форматы с плавающей запятой (подбор разрядности порядка/мантиссы) без дополнительной тонкой настройки, упрощающие интеграцию в программно‑аппаратные комплексы [3]. Низкая разрядность сама по себе не гарантирует ускорения: выигрыш зависит от поддержки INT8/низких битов в инференс‑ядрах и от того, насколько «узкие места» связаны с матричным умножением/свёрткой и трафиком памяти [1]. Критичен контроль accuracy drop, особенно при 4‑битных и ниже режимах [3].
Структурное прореживание
Прореживание уменьшает избыточность модели за счёт удаления параметров или вычислительных блоков [1]. Для инференса на обычном аппаратном обеспечении принципиально различие: неструктурированное прореживание создаёт разреженные матрицы; ускорение возможно лишь при специализированных разреженных ядрах и эффективном хранении индексов; структурное прореживание удаляет каналы/фильтры/блоки/слои, уменьшает размеры тензоров и число MAC‑операций в плотных ядрах, что обычно даёт более предсказуемое ускорение на ЦП [1].
В диссертационной работе А. И. Гончаренко подчёркиваются практические трудности внедрения: выбор гранулярности, настройка гиперпараметров, компромисс «ускорение — деградация качества», а также влияние на структуру модели и конвейер разработки [3].
Концептуально ценность управляемой разреженности подтверждается и в биологически вдохновлённых моделях представления: конкурентный пространственный кодировщик с разреженной матрицей связей и механизмом синаптогенеза снижает требования к памяти и время обработки [5].
Дистилляция знаний и перенос обучения
Дистилляция обучает компактного «ученика» воспроизводить поведение более точного «учителя» (по выходам, промежуточным признакам или отношениям) [1; 4]. Это один из основных способов удержать качество при уменьшении ёмкости модели.
В задачах биометрии по лицу Д. В. Свитов показывает, что простое уменьшение числа параметров заметно снижает точность, и предлагает алгоритм дистилляции для моделей с Softmax‑функцией потерь с отступом. Отмечается полезность инициализации ученика весами последнего слоя учителя для сохранения геометрии эмбеддингов (компактность кластеров и пространственные отношения) [2].
Для акустической классификации в ADAS‑сценариях Г. М. Мкртчян рассматривает дистилляцию совместно с робастными функциями потерь как средство устойчивого обучения при шуме и выбросах; заявляется снижение влияния зашумления без значимой потери качества [4]. В качестве иллюстрации приводится достижение точности ученика >93 % при точности учителя около 97 % при очень малом числе параметров (MobileNetV3 <0,2 млн) относительно учителя (BEATs) [4].
Комбинирование методов и сценарии применения
Методы комплементарны и часто применяются совместно [1]. Типовые цепочки:
— квантование → дистилляция (восстановление качества после снижения разрядности);
— структурное прореживание → fine‑tune/дистилляция (компенсация изменения структуры);
— дистилляция → квантование (сначала компактная архитектура, затем уменьшение разрядности).
В мобильных сценариях критична стоимость тонкой настройки: цель может формулироваться как ускорение без большого объёма размеченных данных и без значимого падения качества [3]. В потоковом видео помимо «сжатия сети» эффективны системные приёмы: ранняя остановка детектора объектов по признакам промежуточных слоёв увеличивает среднюю скорость обработки кадров; в связке SSD+MobileNetV2 показаны улучшение mAP и снижение времени обработки кадра в сценарии «умного домофона» [2]. Для встроенных систем, работающих в шумной среде, важны устойчивость обучения и качество данных; робастные потери вместе с дистилляцией повышают надёжность в реальных городских условиях [4].
Современный контекст: посттренировочное сжатие и LLM
С 2023 г. заметно усилился интерес к посттренировочным (post–training) методам сжатия, что связано с высокой стоимостью обучения современных моделей и практической потребностью в развёртывании на ограниченных по памяти и пропускной способности устройствах (edge). В рамках квантования развиваются методы низкобитной weight–only квантизации больших трансформеров с опорой на приближённую второпорядковую информацию (OPTQ/GPTQ) [6], а также подходы, учитывающие распределение активаций для защиты малой доли «наиболее значимых» каналов (AWQ) [7].
В области прореживания для больших трансформеров показано, что однократное (one–shot) прореживание до высокой разреженности может сохранять качество без повторного обучения, если процедура учитывает вклад параметров в выходные ошибки слоёв; характерный пример — SparseGPT [8]. Для дистилляции знаний актуален перенос подходов на генеративные языковые модели: MiniLLM предлагает вариант дистилляции для LLM, основанный на оптимизации обратной дивергенции KL и on–policy обучении [9].
Обобщая, современные работы подчёркивают важность совместного учёта алгоритмических приёмов сжатия и аппаратно‑системных ограничений. Это отражено и в обзорных исследованиях, рассматривающих квантование, прореживание и дистилляцию как взаимодополняющие компоненты эффективного и безопасного развёртывания DNN на практике [10].
Сравнительный анализ и практические рекомендации
В таблице 1 приведена обобщенная сравнительная характеристика методов. Таблица не подменяет результаты конкретных экспериментов, а отражает качественные закономерности, описанные в диссертационных работах и типичные ограничения внедрения на центральных процессорах и встраиваемых платформах [1; 3; 4].
Таблица 1
|
Метод |
Основной механизм ускорения |
Типовой эффект (качественно) |
Ключевые ограничения/риски |
|
Квантование |
Снижение разрядности весов/активаций; низкоразрядные ядра (NEON и др.) |
Экономия памяти, ускорение матричных операций при аппаратной поддержке |
Падение точности; необходимость дообучения/адаптации; аппаратная зависимость [1; 3] |
|
Структурное прореживание |
Удаление каналов/фильтров/блоков; уменьшение размеров тензоров |
Снижение MAC‑операций и трафика памяти; более предсказуемое ускорение на ЦП |
Подбор гиперпараметров; изменение архитектуры; риск деградации качества [3] |
|
Дистилляция знаний |
Обучение ученика по учителю (выходы/признаки/отношения) |
Сохранение качества при уменьшении емкости; совместимость с другими методами |
Наличие учителя; сложность схем обучения; переносимость на домен [2; 4] |
Рекомендации для edge‑сценариев. Если целевая платформа — ЦП общего назначения (ARM/x86) и важна предсказуемость ускорения, практика диссертационных работ указывает на необходимость сочетать алгоритмические оптимизации исполнения (низкоразрядные ядра, учет памяти) с методами обучения, адаптированными под ограничения устройства [1; 3]. В таблице 2 приведены рекомендации по использованию методов снижения вычислительных затрат для конкретных сценариев.
Таблица 2
|
Сценарий |
Главный KPI |
Базовый метод |
Усиление |
Комментарий (основание) |
|
Мобильное распознавание лиц (ARM) |
latency/throughput при ограниченной памяти |
Дистилляция + оптимизация детектора |
Квантование и ранняя остановка |
Сокращение разрыва «сервер/мобильный» и ускорение видео‑конвейера [2] |
|
Акустическая классификация в ADAS |
дедлайн реального времени + устойчивость к шуму |
Легковесная архитектура + дистилляция |
Робастные функции потерь |
Стабилизация обучения при шумных данных, контроль латентности конвейера [4] |
|
Общие мобильные CNN‑модели |
баланс точность/скорость без дорогой тонкой настройки |
Адаптивное квантование с тонкой настройкой порогов |
Дистилляция после квантования |
Ускорение без требования большого объёма разметки; контроль падения точности <1 % [3] |
|
Встроенные системы с ограниченной памятью |
memory footprint |
Квантование |
Структурное прореживание |
Снижение объёма данных и давления на память; учет иерархии памяти [1] |
Следует подчеркнуть, что «скорость» в практических системах не сводится к числу операций: в диссертационной работе А. В. Трусова отдельно выделяются особенности ЦП — иерархическая память и параллельные вычисления на уровне данных, — которые определяют реальную эффективность низкоразрядных и структурно модифицированных моделей [1]. Поэтому при внедрении желательно проводить оценку непосредственно на целевом устройстве.
Кроме того, оптимизация должна учитывать жизненный цикл модели. Методы, требующие сложной тонкой настройки и длительных экспериментов, хуже масштабируются в задачах, где модели часто обновляются или адаптируются под новые данные. В этом контексте интерес представляют схемы адаптации квантования с использованием неразмеченных данных и ограниченного числа эпох, и дистилляция как «универсальный» механизм переноса качества [2; 3].
Заключение
Систематизация исследований показывает, что снижение вычислительной сложности инференса на устройствах с ограниченными ресурсами требует одновременного учета всех трёх рассмотренных методов: квантования, структурного прореживания и дистилляции знаний [1].
Квантование обеспечивает прямую экономию памяти и может давать существенное ускорение, однако требует аппаратно‑зависимых реализаций и контроля падения качества; прикладные схемы адаптации порогов и использование неразмеченных данных для тонкой настройки повышают практическую применимость [3]. Структурное прореживание ориентировано на регулярное уменьшение объёма вычислений и лучше согласуется с оптимизированными плотными ядрами, но сопряжено с вопросами выбора гранулярности и подбора гиперпараметров [3]. Дистилляция выступает универсальным механизмом переноса качества от более емких моделей к легковесным, включая сценарии устойчивого обучения в шумных доменах [2].
Практическая рекомендация, вытекающая из рассмотренных работ, состоит в том, чтобы оценивать эффективность оптимизаций на целевой платформе и рассматривать ускорение как свойство всего конвейера обработки (пред– и постобработка, частота вызовов моделей), а не только ядра инференса нейросети [2; 4].
Литература:
- Трусов, А. В. Квантованные нейросетевые модели для процессоров общего назначения с ограниченными ресурсами: специальность 1.2.2 «Математическое моделирование, численные методы и комплексы программ»: автореферат на соискание ученой степени кандидата технических наук / Трусов Антон Всеволодович; МФТИ. — М., 2025. — 30 с. — Текст: непосредственный.
- Свитов, Д. В. Оптимизация производительности свёрточных нейронных сетей в системе распознавания лиц: специальность 1.2.2 «Математическое моделирование, численные методы и комплексы программ»: автореферат на соискание ученой степени кандидата технических наук / Свитов Давид Вячеславович; ИАиЭ СО РАН. — Новосибирск, 2023. — 18 с. — Текст: непосредственный.
- Гончаренко, А. И. Высокопроизводительные нейронные сети глубокого обучения для устройств с низкими вычислительными ресурсами Sources: специальность 1.2.2 «Математическое моделирование, численные методы и комплексы программ»: автореферат на соискание ученой степени кандидата технических наук / Гончаренко Александр Игоревич; ИАиЭ СО РАН. — Новосибирск, 2023. — 16 с. — Текст: непосредственный.
- Мкртчян, Г. М. Разработка методов и средств нейросетевой обработки акустической информации: специальность 2.3.8 «Информатика и информационные процессы»: автореферат на соискание ученой степени кандидата технических наук / Мкртчян Грач Маратович; МТУСИ. — М., 2025. — 24 с. — Текст: непосредственный.
- Кудеров, П. В. Разработка методов и алгоритмов представления информации в обучении с подкреплением с использованием биологических принципов: специальность 5.12.4 «Когнитивное моделирование»: автореферат на соискание ученой степени кандидата физико-математических наук / Кудеров Петр Викторович; МФТИ. — Долгопрудный, 2024. — 36 с. — Текст: непосредственный.
- OPTQ: Accurate Quantization for Generative Pre–trained Transformers / E. Frantar, S. Ashkboos, T. Hoefler, D. Alistarh. — Текст: непосредственный // ICLR 2023. — 2023.
- AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration / J. Lin, J. Tang, H. Tang [и др.]. — Текст: непосредственный // arXiv. — 2023. — № 2306.00978.
- Frantar, E. SparseGPT: Massive Language Models Can Be Accurately Pruned in One–Shot / E. Frantar, D. Alistarh. — Текст: непосредственный // arXiv. — 2023. — № 2301.00774.
- MiniLLM: Knowledge Distillation of Large Language Models / Y. Gu, L. Dong, F. Wei, M. Huang. — Текст: непосредственный // arXiv. — 2023. — № 2306.08543.
- From Algorithm to Hardware: A Survey on Efficient and Safe Deployment of Deep Neural Networks. — Текст: непосредственный // arXiv. — 2024. — № 2405.06038.

