Анализ эффективности ИИ-детекторов в распознании текстов, созданных ИИ и человеком

Автор: Фоминых Екатерина Алексеевна

Рубрика: 28. Филология и лингвистика

Опубликовано в

LXXXI международная научная конференция «Исследования молодых ученых» (Казань, май 2024)

Дата публикации: 03.05.2024

Статья просмотрена: 3 раза

Скачать электронную версию

Библиографическое описание:

Фоминых, Е. А. Анализ эффективности ИИ-детекторов в распознании текстов, созданных ИИ и человеком / Е. А. Фоминых. — Текст : непосредственный // Исследования молодых ученых : материалы LXXXI Междунар. науч. конф. (г. Казань, май 2024 г.). — Казань : Молодой ученый, 2024. — С. 69-72. — URL: https://moluch.ru/conf/stud/archive/515/18488/ (дата обращения: 20.05.2024).

В данной статье автор сравнивает работу трех программ для определения текста, созданного при помощи искусственного интеллекта на основе эссе, написанных студентами, и сгенерированных ИИ. В ходе работы выясняется какая программа самая эффективная, какая часть сгенерированного текста чаще всего верно определяется и какие погрешности могут встречаться в работе данных программ.

Ключевые слова : искусственный интеллект, детекторы, текст, эффективность

В последние годы сфера искусственного интеллекта активно развивается, представляя миру новые способы его применения. Искусственный интеллект используется в медицине, финансах, сфере обеспечения безопасности и образования.

Отдельно стоит выделить область автоматического перевода и виртуальных ассистентов, в которых используется способность ИИ предугадывать последующее слово в предложении, тем самым генерируя текст. ИИ-системы способные на подобные операции называются языковыми моделями или на английском Language Models (LM). В данные модели загружаются разного типа тексты, написанные человеком, анализируя которые, они создают свой собственный текстовый продукт [1].

Самой известной подобной языковой моделью является чат ГПТ или chat GPT, созданный американской научно-исследовательской организации OpenAI и представленный 30 ноября 2022 года. Это первая языковая модель, которая стала доступна широкой публике для операции отличных от привычного перевода с одного языка на другой [2].

Данное изобретение привело к массовому использованию сгенерированного текста одними и настороженности со стороны других. Возник вопрос о распознавании текста, созданного искусственным интеллектом. По этой причине стали появляться программы для того чтобы решить данную дилемму, их назвали ИИ-детекторами или AI-detectors. Данные программы также как и языковые модели предугадывают следующее слово в предложении, и чем легче им это сделать, тем больше вероятность, что загруженный в них текст продукт работы ИИ [3].

Перед учеными встал вопрос об изучении работы детекторов и ее эффективности. Данная работа дополняет предыдущие путем сравнения трех программ для определения сгенерированного текста. К тому же актуальность данной работы состоит в том, что загруженные в систему тексты будут только частично созданы нейросетью, что отличает её от других исследований, в которых детекторам предоставлялись тексты либо полностью написанные человеком, либо полностью сгенерированные.

Чтобы осуществить поставленную цель было взято 15 эссе на английском языке, написанных студентами Высшей школы экономики, представленных для оценивания до 30 ноября 2022 года. Также были сгенерированы эссе на те же темы при помощи чата ГПТ. Что касается выбора детекторов, были взяты те из них, которые при анализе загруженного в них материала выделяли конкретные места в тексте, которые они считают сгенерированными. Был проведен эксперимент, в ходе которого в работах поочередно заменялись вступление и заключение с написанных человеком на сгенерированные части эссе на указанную в работе тему. Количество верно распознанных сгенерированных вступлений и заключений каждого детектора представлено в таблице 1.

Таблица 1

Анализ эффективности выбранных детекторов

	ZeroGPT	GPTZero	QuillBot
Вступление	15	6	3
Заключение	15	5	9

Лучше всего со своей задачей справился ZeroGPT, он определил все сгенерированные части верно. Однако, зачастую вместе со сгенерированными частями он выделял и некоторые предложения, написанные человеком. В большинстве случаев это было предложение после вступления и предложение перед заключением. К тому же этот детектор почти каждый раз выделял как ИИ предложение в середине текста. Что касается второго и третьего детектора, они справились хуже. Была замечена тенденция, что GPTZero лучше определяет сгенерированное вступление, а QuillBot заключение. Также было замечено, что GPTZero выделял начало текста как ИИ даже в случаях, когда оно было написано человеком. Общей чертой всех трех детекторов стало то, что они иногда выделяли предложения, написанные человеком, но находящиеся рядом со сгенерированной частью, а также редко, но все же отмечали человеческие предложения в основной части эссе.

Подводя итоги, можно сказать, что путем эксперимента удалось выяснить, что разница в эффективности определения части текста присутствует и зависит от детектора, удалось выявить также самый эффективный детектор из выборки и узнать возможные погрешности данных программ. Несмотря на то, что было представлено только 3 детектора и 15 эссе, только на английском языке, исследование может быть полезно для людей, работающих в сфере образования, в частности проверяющих работы учащихся.

Литература:

Lancaster, T. Artificial intelligence, text generation tools and ChatGPT — does digital watermarking offer a solution? / T. Lancaster. — Текст: непосредственный // International Journal for Educational Integrity. — 2023. — № 19. — С. 1.
Kublik, S. GPT-3: The Ultimate Guide to Building NLP Products with OpenAI API / S. Kublik, S. Saboo. —: Packt Publishing Ltd, 2023. — 139 c. — Текст: непосредственный.
Alshammari H., El-Sayed A., Elleithy K. Ai-generated text detector for arabic language using encoder-based transformer architecture //Big Data and Cognitive Computing. — 2024. — Т. 8. — №. 3. — С. 32.

Ключевые слова

искусственный интеллект, эффективность, текст, детекторы

Подпишитесь на нашу рассылку: