Отправьте статью сегодня! Журнал выйдет 26 июля, печатный экземпляр отправим 30 июля
Опубликовать статью

Молодой учёный

Дообучение модели LLM написанию коротких текстов

Информатика
20.04.2025
52
Поделиться
Библиографическое описание
Данилов, И. А. Дообучение модели LLM написанию коротких текстов / И. А. Данилов, Г. М. Юришан, И. О. Моисеев. — Текст : непосредственный // Юный ученый. — 2025. — № 5 (90). — С. 69-71. — URL: https://moluch.ru/young/archive/90/4951/.


В статье автор исследует возможность обучения большой языковой модели на школьном компьютере.

Ключевые слова: большие данные, искусственный интеллект, обучение, большая языковая модель, машинное обучение.

Развитие систем искусственного интеллекта невозможно без машинного обучения. Интерес к машинному обучению обусловлен: растущими объёмами и разнообразием данных, вычислительной обработкой, которая является более дешёвой и мощной; доступными хранилищами для хранения данных — все эти аспекты означают, что можно быстро и автоматизировано приводить модели, которые могут анализировать более объёмные и сложные данные и обеспечивать более точные результаты — даже на очень больших объёмах. А благодаря созданию точных моделей у организации больше шансов определить выгодные возможности или избежать неизвестных рисков. [6] Разработчик Матузов Александр провёл в мае 2024 года сравнение сервисов Искусственного Интеллекта и опубликовал на Хабр. По его мнению, на то время самым всесторонне обученным являлся ChatGPT-4о — чат-бот с генеративным искусственным интеллектом, разработанный компанией OpenAI. Его задачи: отвечать на вопросы, создавать тексты и писать коды на разных языках программирования.

Такова была ситуация, когда мы окунулись в мир ИИ и больших данных. Нашими данными были тексты на русском языке, а значит, нам оптимально нужна была мульти лингвистическая или русскоязычная модель LLM. При планировании своей проектной деятельности мы установили, что действовать нам придётся в условиях ограничений:

— финансовых (у нас нет бюджета для оплаты услуг онлайн сервисов ИИ и покупки токенов);

— технических (в наличии у нас есть школьный компьютер, который не особо мощный);

— для реализации проекта по дообучению языковой модели было принято решение определить возможность использования уже существующей модели LLM и дообучить её на своих данных.

На сентябрь 2024 года существовало уже множество моделей LLM. Такие как: YaGPT-3 от Яндекса, GPT-4o от Open AI, Gemeni от Google, LLAMA от Meta и Microsoft, GigaChat от Сбера, DeepSeek, от китайского фонда High-Flyer Capital Management и многие другие менее известные. [5]

Выбрав эти самые продвигаемые модели, мы рассмотрели наши возможности по дообучению, установив для моделей ряд критериев:

— стоимость доступа к существующей модели (стоимость дообучения);

— формат входных данных для дообучения;

— возможность дообучения на собственном компьютере или в сети;

— возможность доступа к модели физических лиц;

— возможность доступа к модели российского пользователя.

Данные были сведены в таблицу и проанализированы.

Результатом анализа стал выбор LLAMA от Meta и Microsoft, как наиболее доступной для использования в дообучении. Большинство моделей не предоставляли возможности дообучения, а предоставляли услуги для использования. Также сами модели для дообучения не предоставлялись в онлайн формате. Чтобы дообучить модель её надо установить на компьютер с определёнными характеристиками.

Но время не стоит на месте. Если ещё в ноябре 2024 года мы решали на какой компьютер нам установить языковые модели GPT-3, LLAMA и будет ли они работать адекватно с нашей кириллицей, то в декабре уже появилась в открытом доступе языковая модель от Т-банка для локальной установки и мы решили использовать её, так как по описанию, её можно было установить даже на ноутбук. [1]

Т-Банк открыл доступ всем желающим к своей русскоязычной большой языковой модели (LLM) T-Lite, у которой 7–8 млрд параметров. Объём варианта установки f16–16.2 Гб.

Для дообучения ИИ нам пришлось окунуться в мир программирования на языке Python. Мы изучили различные материалы: «Как дообучить языковую модель писать в стиле Достоевского» [2].

Первоначально мы скачали предобученную LLM от Т-банка (T-lite-0.1.Q4_K_S.gguf). И провели тестовый запуск по определённому ТЗ (время обращения 14.01.2025).

Для начала мы запустили скаченную версию и предложили ей написать текст согласно нашим требованиям, но он не подошёл, что указывало на востребованность в дообучении.

С помощью менеджера окружения мы создали окружение (jntorch) в нее были установлены пакеты Jupiter notebook, torch, transformers туда же мы устанавливали уникальные для каждой модели библиотеки. Мы нашли git проект для дообучения LLM.

Далее мы собрали текстовый файл txt с нашими текстами для дообучения и преобразовали его в датасет.

Мы начали дообучение русскоязычной модели LLM от Т-банка (T-lite-0.1.Q4_K_S.gguf), то есть пошли коротким путём и решили дообучить её. Но при запуске скрипта (который нам сформировала чат GPT) библиотека transformers не смогла распознать приемлемый формат данных этой модели и предложила использовать другие модели.

Мы решили познакомиться со скриптами дообучения англоязычных моделей (https://huggingface.co/docs/transformers/training). Следуя инструкции нам удалось дообучить англоязычную модель из примера.

Далее мы стали искать мультиязычную модель с поддержкой русского языка для дообучения. А уже к концу января (неделю спустя) мы выбрали поступившую в открытый доступ DeepSeek-R1 (https://huggingface.co/lightblue/DeepSeek-R1-Distill-Qwen-1.5B-Multilingual). В виду того, что каждая модель отличается по количеству параметров, то и техническое оборудование требуется разное.

Так как мы взялись дообучать LLM на школьном компьютере (стационарном и не включённом в школьную сеть), то на последней фазе дообучения машина заявила, что ей чего-то не хватает, либо процессор не справлялся с нашими задачами, и мы приостановили действия по дообучению и решили сменить компьютер.

Следующие действия мы проводили на другом компьютере. В процессе обучения изменение весов потребовало взаимодействия с американскими сервером WanDB, который для нашего региона (РФ) не предоставляет своих услуг. Далее мы изучили информацию о возможности существования аналогов данного сервиса для нашего региона.

Сложности с вариантами сервисов привели нас к мысли вернуться к открытым локальным моделям, и мы стали искать методы обучения, которые не связаны с использованием иностранных сервисов. Мы протестировали Sber, Saiga, Qwen. Sber не прошёл на этапе загрузки датасета (нужен определённый формат), Saiga 3 не удалось загрузить токенизатор (который шёл в комплекте).

Qwen (китайская мультиязычная модель) заработала, но просила много времени (почти 8 часов), при этом, хочется отметить, что мы выбрали для дообучения модель с всего 0,5 миллиардов параметров (модель от Т-банка имела 8 миллиардов параметров) и мы обучили его на прилагаемом датасете.

В заключение хочется добавить, что быстрота обучения модели LLM, конечно, зависит от мощностей процессора компьютера и объёма данных модели. А наш путь в изучении бесплатных возможностей для школьника заниматься дообучением больших языковых моделей показал, как быстро меняется мир в сфере Искусственного интеллекта. За всеми изменениями следует еженедельно обязательно следить, если планируешь развиваться профессионально в данной области и создавать интересные проекты по анализу больших данных. Надеемся, что наш опыт поможет и другим школьникам в поисках модели для дообучения.

Литература:

  1. ИИ T-Lite от Т-Банка. Запуск LLM на ноутбуке https://dzen.ru/a/Zs4CthUBWiR1IUcj
  2. Как дообучить языковую модель писать в стиле Достоевского https://sysblok.ru/courses/kak-doobuchit-jazykovuju-model-pisat-v-stile-dostoevskogo/
  3. Как дообучить LLM с помощью Supervised Fine-Tuning https://habr.com/ru/articles/830396/
  4. Малышев И. О. Обзор современных генеративных нейросетей: отечественная и зарубежная практика \\ International Journal of Humanities and Natural Sciences, vol. 1–2 (88), 2024, с. 168–171.
  5. Машинное обучение: что это такое и почему это важно? https://wiki.merionet.ru/articles/mashinnoe-obuchenie-chto-eto-takoe-i-pochemu-eto-vazhnoh
  6. Сравнение сервисов Искусственного Интеллекта https://habr.com/ru/articles/830254/
Можно быстро и просто опубликовать свою научную статью в журнале «Молодой Ученый». Сразу предоставляем препринт и справку о публикации.
Опубликовать статью
Ключевые слова
большие данные
искусственный интеллект
обучение
большая языковая модель
машинное обучение

Молодой учёный