10.12.2024. - Создали ИИ для выявления ИИ-вставок в текстах

Создали ИИ для выявления ИИ-вставок в текстах

Российские исследователи разработали две системы ИИ, способные выявлять сгенерированные нейросетями вставки в текстах на научную тематику. В перспективе подобные модели помогут в проверке оригинальности и достоверности научных публикаций, сообщила пресс-служба НИУ ВШЭ.

"Команда исследователей создала две модели для обнаружения в научных текстах частей, сгенерированных искусственным интеллектом. В системе AIpom соединены два типа моделей - декодер и энкодер, что позволяет ей эффективнее находить сгенерированные вставки. Система Papilusion подходит для распознания исправлений с помощью синонимов и кратких пересказов, сгенерированных нейросетью, в работе она использует модели одного типа - энкодеры", - говорится в сообщении.

Обе системы разработаны группой под руководством стажера-исследователя НИУ ВШЭ (Москва) Александра Ширнина для решения стремительно приобретающей актуальность задачи - борьбы с генерацией текстов при помощи больших языковых моделей, таких как ChatGPT или GigaChat. В последнее время они используются при написании не только студенческих курсовых и дипломов, но и вымышленных научных работ, иногда попадающих в серьезные рецензируемые научные журналы.

Системы, созданные Ширниным и его коллегами, заняли второе (AIpom) и шестое (Papilusion) места на международном конкурсе SemEval-2024, на котором ученые должны были создать алгоритм, способный выявлять сгенерированный ИИ текст и распознавать "границы" между ним и реально написанным человеком текстом.

По словам Ширнина, сочетание двух разных типов нейросетей - декодеров и энкодеров - позволило значительно повысить эффективность системы AIpom. Декодер получает инструкции от пользователя и разбивает текст на предположительно созданные человеком и машиной фрагменты, а энкодер проверяет и уточняет эти оценки. Подобная двухступенчатая система проверки текстов позволила разработке Ширнина и его коллег обойти большинство других систем.

Как отметил ученый, качество работы созданных ими систем ИИ можно заметно повысить, если значительным образом расширить наборы естественных и сгенерированных текстов и данных, на которых проводилось их обучение. Это позволит выявлять машинный текст в более широком наборе научных статей и работ студентов, а также распознавать ситуации, в которых ИИ используется для дополнения текстов, их переформулировки и решения других сложных задач, подытожили исследователи.

Источник