Большие языковые модели (LLM), такие как GPT-3.5/4, Claude, Gemini с закрытыми весами, или модели с открытыми весами, такие как LLaMa 2/3, Mistral, Mixtral, а также более поздние модели Dbrx или Command R+, часто описываются как примеры базовых моделей, то есть моделей, которые эффективно используются для решения различных задач и условия в режиме малого количества показов или нулевого количества кадров, демонстрируя при этом законы масштабирования, которые предсказывают улучшение функций при увеличении шкалы предварительной тренировки. Эти заявления о превосходстве в выполнении различных функций и задач основаны на измерениях, проведенных по различным наборам стандартизированных критериев, которые показывают высокие оценки для таких моделей. Здесь мы демонстрируем разительную разбивку функций и возможностей рассуждения современных моделей, обученных в самых больших доступных масштабах, которые претендуют на высокую функциональность, используя простую, краткую, общепринятую задачу здравого смысла, сформулированную на лаконичном естественном языке, легко решаемую людьми.
|
Ситуация складывается драматичная, поскольку модели также выражают сильную самоуверенность в своих неправильных решениях, в то же время предоставляя часто бессмысленные объяснения, похожие на "логические рассуждения", похожие на конфабуляции, чтобы оправдать и подкрепить достоверность своих явно неудачных ответов, заставляя их звучать правдоподобно. Различные стандартные вмешательства в попытке найти правильное решение, такие как различные виды расширенных подсказок или призывы к моделям еще раз пересмотреть неправильные решения путем многоэтапной переоценки, терпят неудачу. Мы доводим эти первоначальные наблюдения до сведения научно-технического сообщества, чтобы стимулировать срочную переоценку заявленных возможностей нынешнего поколения LLM, такая переоценка также требует совместных действий по созданию стандартизированных критериев, которые позволили бы надлежащим образом выявлять такие базовые недостатки мышления, которые, очевидно, остаются нераскрытыми при текущем уровне развития, - современные процедуры оценки и контрольные показатели.
|