30.06.2024. - Экзаменаторы не могут отличить ответы ИИ от студентов

Экзаменаторы не могут отличить ответы ИИ от студентов

Искусство жульничества на экзаменах прошло долгий путь с тех времен, когда люди писали несколько заметок на запястье. На самом деле, новое исследование показывает, что чат-боты с искусственным интеллектом делают жульничество более эффективным, чем когда-либо. Исследователи обнаружили, что даже опытные экзаменаторы сейчас с трудом могут уловить разницу между ИИ и настоящими студентами-людьми. Эксперты из Университета Рединга тайно добавили ответы, полностью сгенерированные ChatGPT, к настоящему экзамену по психологии для студентов. И, несмотря на то, что ИИ использовался самым простым и очевидным образом, ничего не подозревающие маркеры не смогли распознать ответы ИИ в 94 процентах случаев. Еще более тревожным является то, что ИИ фактически превзошел обычных учащихся в среднем по успеваемости, получив высокие оценки 2: 1 и 1-го уровня. Быстрое развитие ИИ, генерирующих текст, таких как ChatGPT, создало серьезный риск того, что списывание с помощью ИИ может подорвать экзаменационный процесс.

Чтобы понять, насколько серьезной может быть эта проблема, доцент Питер Скарф (Peter Scarfe) и профессор Этьен Рош (Etienne Roesch) попытались "внедрить" в реальный экзамен искусственный интеллект. Исследователи создали 33 поддельных профиля студентов, которые зарегистрировались для сдачи онлайн-экзаменов на дому по различным модулям психологии для студентов бакалавриата. Используя ChatGPT-4, исследователи создали полностью искусственные ответы как на короткие вопросы из 200 слов, так и на целые эссе из 1500 слов. Затем эти ответы были представлены вместе с ответами реальных студентов на экзамене Школы психологии и клинических лингвистических наук. Чтобы показать, как трудно бывает отличить одно от другого, MailOnline подготовил наши собственные примеры эссе. Из-за конфиденциальности данных исследователи не смогли поделиться с нами ни одним из экзаменационных ответов, но мы использовали их точную подсказку с помощью искусственного интеллекта для ответа на вопрос и пример вопроса по психологии для студентов с помощью ChatGPT.

Один из примеров на фото создан искусственным интеллектом, в то время как другой - это человеческий пример, взятый из руководства по написанию эссе Университета Южной Австралии. Итак, можете ли вы определить, что есть что? Ответы приведены в таблице ниже. Ни один из маркеров не знал о проведении какого-либо эксперимента, и ничто не указывало на то, что документы об искусственном интеллекте чем-то отличались. Из 63 представленных работ, созданных с помощью искусственного интеллекта, только 6% были отмечены экспертами как потенциально подозрительные, но остальные 94% остались совершенно незамеченными. ИИ получил более высокие средние оценки, чем обычные учащиеся, а в некоторых модулях превзошел своих одноклассников-людей на целый балл. В 83% случаев ИИ получил оценки, которые были лучше, чем у случайно выбранной группы учащихся. Это означает, что только 16% студентов получили бы более высокую оценку, если бы они действительно учились и сдавали экзамен самостоятельно, а не использовали искусственный интеллект. На самом деле, как отмечают исследователи, существует очень реальная вероятность того, что некоторые из реальных студентов-людей действительно списывали и сдавали этот самый онлайн-экзамен с помощью искусственного интеллекта.

После пандемии многие университеты перешли от традиционных экзаменов к онлайн-модели сдачи экзаменов на дом. Ведущий исследователь профессор Скарф говорит: "Многие учебные заведения отошли от традиционных экзаменов, чтобы сделать оценку более инклюзивной". Преимущество заключается в том, что эти экзамены, как правило, проверяют не только способность усваивать информацию, и они более доступны для людей с проблемами психического или физического здоровья. Однако это движение совпало с другим развитием в мире "генеративного" ИИ, который позволяет пользователям создавать целые массивы текста с помощью простой подсказки. Поскольку учащиеся работают дома, не привлекая внимания наблюдателей, возможность использовать ИИ для списывания становится намного доступнее. И хотя детекторы с искусственным интеллектом действительно существуют, они оказались крайне ненадежными в реальных ситуациях. Например, было обнаружено, что детектор, созданный Turnitin, программой для управления работой студентов, дает менее 20-процентную точность при использовании на реальных студентах. Исследователи говорят, что это может означать конец традиционных экзаменов в том виде, в каком мы их знаем, поскольку университеты вынуждены адаптироваться.

Доктор Скарф говорит: "Мы не обязательно полностью вернемся к сдаче письменных экзаменов, но глобальному сектору образования придется эволюционировать перед лицом ИИ". В своей статье исследователи предполагают, что, возможно, даже потребуется разрешить использование искусственного интеллекта на экзаменах, чтобы избежать устаревания. Поскольку ИИ практически невозможно обнаружить, а использование ИИ, скорее всего, станет необходимым навыком, исследователи утверждают, что экзамены не должны препятствовать использованию этой новой технологии – подобно тому, как калькуляторы стали более приемлемыми на экзаменах. Исследователи пишут: ""Новая норма", интегрирующая ИИ, кажется неизбежной. "Аутентичной формой оценки" будет та, в которой используется искусственный интеллект.' Профессор Маккрам добавляет: "Решения включают в себя отказ от устаревших идей оценки и переход к тем, которые в большей степени соответствуют навыкам, которые понадобятся студентам на рабочем месте, включая использование искусственного интеллекта".

Источник