|
ИИ принимает экзамены у студентов-первокурсников
|
|
|
|
Как высокий рост населения влияет на валовой внутренний продукт? Студенты-экономисты хорошо знакомы с подобными экзаменационными вопросами. Поскольку вопросы задаются в виде свободного текста, они требуют не только специальных знаний, но и умения мыслить и аргументировать экономически. Однако оценка этих ответов - трудоемкая задача для университетских ассистентов: каждый ответ должен быть проверен и оценен индивидуально.
|
|
|
|
Может ли искусственный интеллект выполнять такую работу? Исследователи из Университета Пассау в области экономики и компьютерных наук исследовали этот вопрос. Их исследование было недавно опубликовано в журнале Scientific Reports. Результаты показали, что языковая модель OpenAI GPT-4 работает аналогично тестировщикам-людям при ранжировании ответов в виде открытого текста.
|
|
|
|
Краткий обзор результатов:
|
|
|
|
- Когда модель искусственного интеллекта попросили ранжировать текстовые ответы в соответствии с правильностью и полнотой — в смысле лучшего, второго по значимости или худшего ответа — GPT получила оценку, сравнимую с оценкой экзаменаторов-людей.
|
|
- Учащиеся не могут впечатлить GPT текстами, созданными с помощью искусственного интеллекта: GPT не продемонстрировал значительного предпочтения сгенерированных с помощью искусственного интеллекта или более длинных ответов.
|
|
- При оценке текстовых ответов по балльной системе модель искусственного интеллекта показала несколько худшие результаты с точки зрения качества. ГПТ, как правило, были более щедры в своих оценках, чем люди, в некоторых случаях почти на целый балл.
|
|
|
|
|
|
|
Исследователи приходят к выводу, что искусственный интеллект пока не может заменить человеческие маркеры. "Написание хороших типовых решений и повторная проверка должны оставаться человеческими задачами", - объясняет профессор Иоганн Граф Ламбсдорф, заведующий кафедрой экономической теории Университета Пассау, который отвечал за экспериментальный дизайн исследования вместе с Деборой Восс и Стефаном Гешвиндом.
|
|
|
|
Специалист по информатике Абдулла Аль-Зубаер запрограммировал техническую реализацию и оценку под руководством профессора Майкла Гранитцера (наука о данных). Исследователи утверждают, что экзаменационные задания должны по-прежнему тщательно контролироваться людьми. Однако искусственный интеллект, безусловно, подходит в качестве второго важного экзаменатора.
|
|
Новый метод сравнения оценки ИИ и человека
|
|
|
|
Уже проведено несколько исследований, посвященных оценке ИИ как испытуемого. Однако исследования, посвященные ИИ как экзаменатору, редки, а те немногие, что существуют, используют оценку человека в качестве достоверной основы. Команда из Пассау пошла еще дальше: она исследовала, могут ли оценки ИИ конкурировать с оценками экспертов—людей, не предполагая, что люди всегда правы.
|
|
|
|
Для эксперимента исследователи использовали текстовые ответы студентов, изучающих макроэкономику, на шесть вопросов. Команда отобрала по 50 ответов на каждый вопрос. В общей сложности 300 ответов были проанализированы обученными помощниками по коррекции. В то же время перед GPT была поставлена та же задача оценки.
|
|
|
|
Поскольку четкого "правильного" ответа на открытые вопросы не существует, неясно, виноват ли в ошибке искусственный интеллект или люди. Тем не менее, чтобы иметь возможность провести сравнение, исследовательская группа прибегла к хитрости: она использовала степень совпадения между оценками в качестве показателя близости к предполагаемой истине. Чем выше совпадение, тем ближе к истине.
|
|
|
|
Отправной точкой было соглашение между экспертами-людьми. Затем один из экспертов был заменен на GPT. Если это приводило к более высокому уровню согласия, это считалось признаком того, что оценка ИИ была лучше, чем у экспертов-людей. На самом деле, GPT удалось немного повысить оценку по отдельным вопросам.
|
|
|
|
"Мы сами были отчасти удивлены тем, насколько хорошо ИИ справился с некоторыми тестами", - говорит Восс.
|
|
|
|
Аль-Зубаер добавляет: "В ходе наших тестов качество GPT-4 оставалось в целом стабильным даже при неточных или некорректных инструкциях". По мнению команды, это показывает, что ИИ надежен и универсален, даже если он по-прежнему немного уступает в балльной оценке.
|
|
|
|
Источник
|