30.08.2024. - ИИ не может правильно написать слово Клубника

ИИ не может правильно написать слово Клубника

Сколько раз буква “р” встречается в слове “клубника”? Согласно таким выдающимся продуктам искусственного интеллекта, как GPT-4o и Claude, ответ - дважды. Большие языковые модели (Lms) позволяют писать эссе и решать уравнения за считанные секунды. Они могут синтезировать терабайты данных быстрее, чем человек может открыть книгу. Тем не менее, эти, казалось бы, всезнающие ИИ иногда дают столь впечатляющие сбои, что неудача превращается в вирусный мем, и мы все радуемся с облегчением, что, возможно, еще есть время, прежде чем нам придется склониться перед нашими новыми повелителями ИИ.

Неспособность крупных языковых моделей понять концепцию букв и слогов свидетельствует о более важной истине, о которой мы часто забываем: у этих существ нет мозга. Они думают не так, как мы. Они не люди и даже не особенно похожи на людей.

Большинство LLM основаны на трансформаторах, своего рода архитектуре глубокого обучения. Модели-трансформаторы разбивают текст на токены, которые могут быть полными словами, слогами или буквами, в зависимости от модели.

“Программы LLM основаны на архитектуре transformer, которая, в частности, не позволяет считывать текст. Когда вы вводите запрос, он преобразуется в кодировку”, - сказал TechCrunch Мэтью Гуздиал, исследователь искусственного интеллекта и доцент Университета Альберты. “Когда он видит слово ”the", у него есть единственная кодировка того, что означает "the", но он не знает о "T", "H", "E"."

Это связано с тем, что преобразователи не способны эффективно воспринимать или выводить фактический текст. Вместо этого текст преобразуется в числовое представление самого себя, которое затем контекстуализируется, чтобы помочь ИИ найти логический ответ. Другими словами, ИИ может знать, что лексемы “солома” и “ягода” составляют “клубнику”, но он может не понимать, что “клубника” состоит из букв “s”, “t”, “r”, “a”, “w”, “b"., ”e”, “r”, “r” и “y” в этом определенном порядке. Таким образом, он не может сказать вам, сколько букв — не говоря уже о том, сколько “р” — содержится в слове “клубника”.

Эту проблему нелегко устранить, поскольку она встроена в саму архитектуру, которая обеспечивает работу этих LLM.

Кайл Уиггерс из TechCrunch в прошлом месяце углубился в эту проблему и поговорил с Шериданом Фейхтом, аспирантом Северо-Восточного университета, изучающим интерпретируемость LLM.

“Довольно сложно обойти вопрос о том, каким именно должно быть ”слово" для языковой модели, и даже если мы заставим экспертов-людей договориться об идеальном словарном запасе токенов, модели, вероятно, все равно сочтут полезным "разбивать" вещи еще больше", - сказал Фейхт TechCrunch. “Я предполагаю, что из-за такой нечеткости не существует такого понятия, как идеальный токенизатор”.

Эта проблема становится еще более сложной по мере того, как магистрант изучает все больше языков. Например, некоторые методы маркировки могут предполагать, что пробел в предложении всегда будет стоять перед новым словом, но многие языки, такие как китайский, японский, тайский, лаосский, корейский, кхмерский и другие, не используют пробелы для разделения слов. Исследователь искусственного интеллекта Google DeepMind Йенни Джун в ходе исследования, проведенного в 2023 году, обнаружила, что для передачи того же значения в некоторых языках требуется в 10 раз больше токенов, чем в английском.

“Вероятно, лучше всего позволить моделям смотреть на персонажей напрямую, не прибегая к токенизации, но прямо сейчас это просто невозможно с точки зрения вычислений для трансформеров”, - сказал Фейхт.

Генераторы изображений, такие как Midjourney и DALL-E, не используют архитектуру transformer, которая используется в текстовых генераторах, таких как ChatGPT. Вместо этого генераторы изображений обычно используют диффузионные модели, которые восстанавливают изображение из шума. Модели диффузии обучаются на больших базах данных изображений, и у них появляется стимул попытаться воссоздать что-то похожее на то, чему они научились на основе обучающих данных.

Как рассказала TechCrunch Мелаш Тека Хадгу, соучредитель Lesan и научный сотрудник Института DAIR, “Генераторы изображений, как правило, гораздо лучше работают с такими артефактами, как автомобили и лица людей, и в меньшей степени - с такими мелкими объектами, как пальцы и почерк”.

Это может быть связано с тем, что эти мелкие детали не так часто выделяются в обучающих наборах, как, например, то, что у деревьев обычно зеленые листья. Проблемы с диффузионными моделями, возможно, легче устранить, чем те, которые возникают у трансформаторов. Некоторые генераторы изображений улучшили представление рук, например, за счет обучения большему количеству изображений реальных человеческих рук.

“Еще в прошлом году все эти модели были очень плохи с пальцами, и это та же проблема, что и с текстом”, - объяснил Гуздаль. “У них это действительно хорошо получается на местах, так что если вы посмотрите на руку с шестью или семью пальцами, вы можете сказать: "Ого, это похоже на палец". Аналогично, с сгенерированным текстом вы могли бы сказать, что это выглядит как буква ”Н", а это - как буква "П", но у них действительно плохо получается структурировать все это вместе".

Вот почему, если вы попросите генератор изображений с искусственным интеллектом создать меню для мексиканского ресторана, вы можете получить обычные блюда, такие как “Тако”, но с большей вероятностью найдете такие блюда, как “Тамилос”, “Энчидаа” и “Бурхильтос”.

Поскольку эти мемы о написании слова “strawberry” распространяются по всему Интернету, OpenAI работает над новым продуктом для искусственного интеллекта под кодовым названием Strawberry, который, как предполагается, будет еще более искусен в рассуждениях. Рост числа LLM был ограничен тем фактом, что в мире просто не хватает данных об обучении, чтобы сделать такие продукты, как ChatGPT, более точными. Но, как сообщается, Strawberry может генерировать точные синтетические данные, чтобы сделать LLM OpenAI еще лучше. Согласно информации, Strawberry может разгадывать кроссворды "Connections" из New York Times, для решения которых требуется творческое мышление и умение распознавать образы, а также решать математические уравнения, с которыми она раньше не сталкивалась.

Тем временем Google DeepMind недавно представила системы искусственного интеллекта AlphaProof и AlphaGeometry 2, предназначенные для формального математического анализа. Google утверждает, что эти две системы решили четыре из шести задач Международной математической олимпиады, что является достаточным показателем для получения серебряной медали на престижном соревновании.

Немного странно, что мемы о том, что искусственный интеллект не может правильно написать слово “клубника”, распространяются одновременно с сообщениями о клубнике OpenAI. Но генеральный директор OpenAI Сэм Альтман ухватился за возможность показать нам, что у него в саду довольно впечатляющий урожай ягод.

Источник