В статье автор исследует вопросы возможных путей развития искусственного интеллекта в органах прокуратуры Российской Федерации, проблематику его использования с учетом требований действующего законодательства об информационной безопасности и защите информации.
Ключевые слова: искусственный интеллект, органы прокуратуры, информационная безопасность.
В современном мире информационные технологии развиваются с невероятной скоростью, оказывая глубокое влияние на все аспекты жизни общества. В этой связи важно, чтобы органы прокуратуры Российской Федерации (далее — органы прокуратуры) шли в ногу со временем и эффективно использовали новые инструменты для обеспечения законности и правопорядка.
Генеральным прокурором Российской Федерации 22.03.2024 утвержден План по внедрению технологий искусственного интеллекта и автоматизации деятельности в органах прокуратуры Российской Федерации на 2024–2026 гг.
Появление новых технологий, основанных на искусственном интеллекте, открывает перед прокурорами большие возможности. К их числу можно отнести автоматизацию рутинных задач, таких, как сбор и обработка информации. При этом существенно снижается возможность искажения данных, связанная с «человеческим фактором», повышается скорость и эффективность анализа. Даже если ограничиться развитием исключительно этих направлений, нагрузка на прокуроров существенно снизится, что является несомненным плюсом.
Однако уже сейчас очевидно, что применение искусственного интеллекта не ограничится решением рутинных задач.
Так, изучение положений приказа Генерального прокурора Российской Федерации № 380 от 16.07.2020 «О совершенствовании информационно-аналитической деятельности в органах прокуратуры Российской Федерации», свидетельствует о том, что прокуратура, если уместно воспользоваться терминами бизнес-аналитики, планирует постепенно перейти от «описательной» к стратегической (предиктивной) аналитике, позволяющей не только оценивать состояние законности и правопорядка, но и выявлять причины и условия, снижающие эффективность работы, принимать меры по их устранению.
В течение 2024 года планируется запуск нового национального проекта «Экономика данных», предполагающего переход к алгоритмам анализа данных на основе технологий искусственного интеллекта [1]. Потенциальное участие органов прокуратуры в реализации этого проекта позволило бы создать собственные информационно-аналитические платформы, а значит перейти на качественно новый уровень аналитики, включающий в себя не только постоянный мониторинг состояния законности, но и поддержку принятия решений.
Для этого органам прокуратуры необходимо развивать такие направления внедрения искусственного интеллекта как:
1) Анализ больших данных, в т. ч. и тех данных, объемы которых не позволяют обработать их традиционными методами.
2) Анализ правоприменительной практики, обращений граждан и юридических лиц.
3) Мониторинг законодательства, и т. д.
4) Использование возможностей генеративного искусственного интеллекта для создания информационно-аналитических документов.
5) Создание информационно-аналитической платформы (платформ) для поддержки принятия решений, и т. п.
Вместе с тем нужно понимать, что смена парадигмы информационно-аналитической деятельности потребует привлечения значительных ресурсов (временных, финансовых, технических, человеческих). Не в последнюю очередь это связано с тем, что внедрение технологий искусственного интеллекта заставляет органы прокуратуры обратить особе внимание на выработку нормативных, организационных и технических аспектов информационной безопасности их применения. Для этого необходимо прогнозировать и реально оценивать потенциальные угрозы в этой сфере.
Учитывая отсутствие в настоящее время необходимых ресурсных и технических возможностей по созданию собственных моделей на базе искусственного интеллекта, с большой долей вероятности можно предположить, что органы и организации прокуратуры будут закупать и использовать готовые модели, с последующим их «дообучением» на данных органов прокуратуры.
Соответственно, первой проблемой будет оценка соответствия готовой модели требованиям информационной безопасности — Концепции обеспечения информационной безопасности в органах и организациях прокуратуры Российской Федерации, положениям федеральных законов, указов Президента Российской Федерации, постановлений Правительства Российской Федерации, нормативных правовых актов и методических документов регуляторов в сфере защиты информации (ФСТЭК России, ФСБ России и других федеральных органов исполнительной власти, определенных законодательством) и т. п.
При условии положительного прохождения данного этапа, впоследствии будет производиться «дообучение» готовой модели. И с большой долей вероятности мы можем прогнозировать на этой стадии возникновение рисков в сфере сохранности и целостности данных органов и организаций прокуратуры, в первую очередь, персональных данных, служебной и иной конфиденциальной информации.
В первую очередь, это связано со спецификой данных, которые необходимо будет использовать для дообучения, а именно, с созданием наборов таких данных.
Так, все имеющиеся в органах прокуратуры данные, вне зависимости от источника их получения, условно можно разделить на три большие группы — числовые (например, статистические), текстовые и графические данные.
Для анализа первой группы данных искусственным интеллектом традиционно применяются математические методы и алгоритмы.
Использование же искусственного интеллекта для анализа текстовых данных требует масштабной подготовки, прежде всего, создания наборов данных и обучения искусственного интеллекта.
На начальном этапе необходимо отобрать текстовые данные для обучения модели искусственного интеллекта, а затем выполнить предварительную обработку текстовых данных — токенизацию (разделить текст на отдельные слова или символы), стемминг и лемматизацию (приведение слов в начальную форму), стандартизировать текст (т. е. удалить лишние символы, не несущие смысловой нагрузки (предлоги и союзы, знаки препинания), нормализовать текст (т. е. привести в единый формат), произвести его фильтрацию (удалить повторяющиеся данные). Для улучшения качества обучения может также потребоваться произвести ручную или автоматическую маркировку (расставить метки отдельным примерам в наборе данных), векторизацию текста (перевести текст в числовые символы, которые можно использовать для классификации), проверить качество данных (устранить возможные ошибки), разделить тексты на обучающую и текстовую выборки.
Что касается графических данных, как единицы анализа, то, разумеется, на сегодняшний день они меньше используются в органах прокуратуры, нежели в органах федеральной безопасности, и в органах внутренних дел. Но, тем не менее, на отдельных направлениях прокурорского надзора и прокурорской деятельности (например, прокурорский надзор в сфере информационных технологий и защиты информации, противодействие экстремизму, в экологической сфере, прокурорский надзор за исполнением законодательства в сфере противодействия коррупции), анализ графических данных также будет весьма востребованным. Создание наборов графических данных является довольно трудозатратным, поскольку также предполагает предварительную обработку данных (сбор данных, маркировку, нормализацию и т. д.).
В этой связи нельзя недооценивать наличие «стандартного» набора угроз, потенциально возникающих при обучении любой модели на базе искусственного интеллекта.
В первую очередь, при создании наборов данных органы и организации прокуратуры могут столкнуться с «отравлением данных» — умышленным обучением модели на искаженных или вредоносных данных. Впоследствии это может позволить злоумышленникам манипулировать поведением модели, заставить её принимать неправильные решения. Подобная некорректная работа модели может привести к значительным негативным последствиям. К их числу можно отнести:
утрата доверия к модели со стороны пользователей;
утечки конфиденциальной информации;
материальный ущерб, причиненный органам и организациям прокуратуры необходимостью переобучения (если это возможно), или закупкой новой модели;
ущерб репутации органов и организаций прокуратуры вследствие некорректной работы системы, особенно, в случае ее имплементации в межведомственное электронное взаимодействие;
необходимость разрешения жалоб на некорректно принятые решения, особенно при использовании такой модели при непосредственном взаимодействии с гражданами и юридическими лицами.
Для того, чтобы избежать «отравления данных», органам прокуратуры необходимо использовать как стандартные, так и специфические подходы к организации информационной безопасности.
По оценкам специалистов, к стандартным мерам в данном случае можно отнести предварительную оценку данных, использующихся для обучения, использование антивирусов, мониторинга сетей, использование брандмауэров, своевременного обновления программного обеспечения. Также необходимо проводить периодический мониторинг аномалий работы системы, а также фильтрацию и валидацию данных после обучения [2].
Что касается специфических подходов, в свете специфики различных направлений прокурорского надзора и прокурорской деятельности, требующей создания отдельных наборов данных для обучения искусственного интеллекта для каждого из указанных направлений, при одновременной необходимость сохранности конфиденциальной информации, формирование наборов данных и проведение операций машинного обучения вряд ли можно доверить сторонним специалистам. Эта работы должна производиться непосредственно работниками органов прокуратуры, либо под их контролем.
Кроме того, важной задачей является создание органами и организациями прокуратуры собственной инфраструктуры для работы с большими данными и обучения искусственного интеллекта — собственных центров обработки данных (ЦОД). Аренда сторонних датацентров если и допустима, то лишь на первых порах. Во-первых, их использование не гарантирует сохранности и целостности данных, во-вторых, потребует значительных финансовых затрат. К примеру, Министерство внутренних дел Российской Федерации приступило к строительству собственного ЦОД еще в июне 2023 года.
Еще одной угрозой некорректной работы модели, является так называемое «катастрофическое забывание». Это явление, связанное с погрешностями в машинном обучении, возникающее при ускоренном обучении модели, когда модель начинает некорректно работать, а именно, «забывает» то, чему ее научили, начинает хуже работать (т. е. снижаются ее точность и эффективность) после изучения новой задачи [3]. Решить данную проблему можно посредством регуляризации (добавлении штрафа к функции потери модели), ограничивающей способность модели запоминать слишком много информации; использования «импульса» (коэффициента, учитывающего предыдущие градиенты при обновлении параметров модели), предотвращающего резкое изменение параметров модели.
Еще одной потенциальной угрозой информационной безопасности может стать наличие такого явления, которое мы могли бы охарактеризовать как несанкционированное или неконтролируемое использование сотрудниками органов и организаций прокуратуры искусственного интеллекта. В первую очередь это касается использования так называемых генеративных (языковых) моделей, причем, как отечественных, таких как, например, GigaChat, так и зарубежных — в первую очередь, ChatGPT4.
На сегодняшний день в органах и организациях прокуратуры разрешено использовать лицензионное и свободно распространяемое ПО, перечень которого утвержден распоряжением заместителя Генерального прокурора Российской Федерации, курирующего деятельность Главного управления правовой статистики и информационных технологий. При этом генеративные языковые модели в данном перечне отсутствуют. Соответственно, их использование можно расценивать как прямое нарушение требований информационной безопасности, дающее основания для применения мер дисциплинарной ответственности.
Решением данной проблемы могла бы быть легитимизация использования генеративных языковых моделей в органах прокуратуры.
Первым способом легитимизации могло бы быть внесение соответствующих изменений в Единый реестр программного обеспечения, используемого в органах и организациях прокуратуры, т. е. включением в него наиболее часто используемых отечественных генеративных языковых моделей. При этом приоритет необходимо отдать отечественным генеративным языковым моделям, включенным в Единый реестр российских программ для электронных вычислительных машин и баз данных, например, GigaChat. Подобный подход, на наш взгляд, может быть реализован лишь после оценки на соответствие требованиям информационной безопасности потенциально используемой модели. При этом, как нам представляется, использование при работе с GigaChat персональных данных и иной конфиденциальной информации должно быть запрещено, либо существенно ограничено.
Второй путь легитимизации, связан с разработкой или приобретением для органов прокуратуры генеративных языковых моделей, соответствующих всем требованиям информационной безопасности. Данный путь, очевидно, является более затратным как с временной, так и финансовой точки зрения. Кроме того, не следует забывать о том, что его реализация сопряжена с проявлением вышеописанных угроз, возникающих при обучении любой модели на базе искусственного интеллекта.
Таким образом, ответственное применение искусственного интеллекта в органах прокуратуры подразумевает обеспечение высокого уровня защиты данных, в первую очередь, конфиденциальной информации.
Оно может быть обеспечено посредством внедрения передовых технологий шифрования и аутентификации, предотвращающих несанкционированный доступ к конфиденциальной информации, а также жесткой регламентации контроля за использованием данных, содержащих конфиденциальную информацию, в машинном обучении и работе с системами на базе искусственного интеллекта.
В этой связи с большой долей вероятности потребуется актуализировать действующие в органах прокуратуры организационно-распорядительные документы, регулирующие вопросы обеспечения информационной безопасности.
Литература:
- В России появится новый нацпроект — «Экономика данных». — Текст: электронный // Официальный сайт Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации: [сайт]. — URL: https://digital.gov.ru/ru/events/45686 (дата обращения: 14.11.2024).
- Труцуненко, С. Что такое отравление данных и чем оно грозит / София Труцуненко. — Текст: электронный // РБК: [сайт]. — URL: https://trends.rbc.ru/trends/industry/662b41839a79474a44a18e6d (дата обращения: 14.11.2024).
- Катастрофическое забывание в машинном обучении. — Текст: электронный // Code Labs Academy: [сайт]. — URL: https://codelabsacademy.com/ru/blog/catastrophic-forgetting-in-machine-learning (дата обращения: 14.11.2024).