ИИ на сложных математических задачах работают очень плохо
|
Команда исследователей ИИ и математиков, связанных с несколькими институтами в США и Великобритании, разработала математический тест, который позволяет ученым проверить способность систем ИИ решать исключительно сложные математические задачи. Их статья размещена на сервере препринтов arXiv. |
За последние несколько лет магистранты, такие как ChatGPT, стали еще более изощренными, и поэтому иногда может показаться, что они обладают высоким уровнем интеллекта. Но есть одна область, в которой они не справляются с решением сложных математических задач. |
Поскольку разработчики систем искусственного интеллекта работают над улучшением математических навыков своих моделей, они разработали тесты, которые служат средством проверки их прогресса. Два из наиболее популярных - MATH и GSM8K. Со временем некоторые магистры усовершенствовались до такой степени, что смогли набрать до 90% баллов по этим тестам. Но, как отметила команда, работающая над этим новым проектом, уровень сложности таких тестов не так уж высок. Они решили, что необходим новый бенчмарк, и создали его, назвав FrontierMath. |
Для начала исследовательская группа глубоко погрузилась в мир математики, обратившись к одним из самых ярких умов в этой области. Они попросили их предложить несколько по-настоящему сложных математических задач и получили сотни ответов. Исследователи отмечают, что такие задачи не только уникальны (они ранее не публиковались), но и требуют глубокого понимания математики. На решение некоторых из них у людей уходит несколько дней. |
Они также охватывают широкий спектр тем, от теории чисел до алгебраической геометрии. Из-за такой широты, грубая сила не сработает. Как и обоснованные предположения. Чтобы получить высокие оценки в тесте FrontierMath, система искусственного интеллекта должна обладать креативностью, проницательностью и тем, что исследовательская группа называет "глубоким знанием предметной области". |
Проведенное тестирование продемонстрировало трудности, с которыми сталкивается FrontierMath. ИИ, которые показали хорошие результаты по традиционным критериям, не смогли набрать более 2%. |
Источник |
При использовании материалов с сайта активная ссылка на него обязательна
|