Эксперты утверждают, что инструмент искусственного интеллекта (ИИ), который может преобразовывать известные картины в различные художественные стили или создавать совершенно новые произведения искусства из текстовой подсказки, может работать с использованием «секретного языка». Приложение для преобразования текста в изображение DALL-E 2 было выпущено лабораторией искусственного интеллекта OpenAI в прошлом месяце и способно создавать несколько реалистичных изображений и иллюстраций из одной текстовой подсказки. Он также может добавлять объекты в существующие изображения или даже предоставлять разные точки зрения на существующее изображение. Теперь исследователи полагают, что они, возможно, выяснили, как работает технология, после того, как обнаружили, что тарабарские слова создают определенные изображения. Аспирант компьютерных наук Яннис Дарас первоначально использовал программу для создания изображений, содержащих текст внутри, запрашивая «заголовки» или «субтитры».
Полученные изображения содержали случайные последовательности букв. Но когда он вернул эти буквы обратно в приложение, он обнаружил, что приложение выдает изображения одного и того же предмета или сцены, что означает, что они вовсе не были случайными. Например, если вы наберете «Vicootes», вы получите серию сгенерированных ИИ изображений овощей, а «Apoploe vesrreaitars» создаст птиц. Это говорит о том, что DALL-E 2 может работать, переводя введенный текст на свой собственный язык, который затем использует для создания изображений, которые мы видим. Научный сотрудник Квинслендского технологического университета Аарон Сносуэлл в статье для The Conversation описывает тарабарщину как скорее «словарь», чем язык. Это связано с тем, что, несмотря на то, что некоторые подсказки кажутся последовательными в выводе английского слова, эта человеческая категоризация все же может отличаться от того, как их интерпретирует машина.
Как работает DALL-E?
OpenAI потратила два года на создание DALL-E 2 и его предшественника DALL-E, основанного на искусственных нейронных сетях (ИНС). Они пытаются имитировать работу мозга, чтобы учиться, а также используются в умных помощниках, таких как Siri и Cortana. ИНС можно научить распознавать шаблоны в информации, включая речь, текстовые данные или визуальные изображения, и они являются основой для большого количества разработок в области ИИ за последние годы. Разработчики OpenAI собрали данные о миллионах фотографий, чтобы позволить алгоритму DALL-E «узнать», как должны выглядеть разные объекты, и в конечном итоге соединить их вместе. Когда пользователь вводит какой-либо текст для DALL-E для создания изображения, он отмечает ряд ключевых функций, которые могут присутствовать. Затем вторая нейронная сеть, известная как диффузионная модель, создает изображение и генерирует пиксели, необходимые для его визуализации и воспроизведения.
Что такое «тайный язык»?
Некоторые слова, которые программа производит сама, похоже, произошли от латыни. Например, «Apoploe», генерирующее изображения птиц, похоже на «Apodidae», латинское слово, относящееся к семейству видов птиц. Это говорит о том, что язык мог быть создан для обучения ИИ неанглийским словам, которые он собирал из Интернета во время разработки. Многие языки ИИ работают, разбивая входной текст на «токены», к которым они применяют значение, поддерживая эту теорию. Яннис Дарас и Алекс Димакис, профессор Техасского университета в Остине, опубликовали свои результаты в статье на arXiv.
Почему теория «тайного языка» может быть неверной?
Пользователь Twitter Merzmensch Kosmopol обнаружил, что удаление определенных букв в подсказках DALL-E приводит к определенным сбоям или маскированию определенных частей изображения. Если бы программа работала просто, переводя слова на свой язык, а затем создавая изображения из этих слов, такого результата не произошло бы. Кроме того, Рафаэль Мильер, исследователь в области нейробиологии из Колумбийского университета, обнаружил, что отдельные слова тарабарщины не всегда объединяются для создания связного составного изображения, как это было бы, если бы программа работала с использованием «секретного языка». Он обнаружил, что «бонабис» давал изображения различных скучных блюд, а «бобор» возвращал разнообразные морепродукты, птицу, обезьян, фрукты, жуков и птиц. Тем не менее, когда он ввел «бонабис есть бобор», он выдал только изображения жуков на растениях.
Почему людей беспокоит «тайный язык»?
OpenAI ввела ограничения на область действия DALL-E 2, чтобы гарантировать, что он не может создавать ненавистнические, расистские или насильственные изображения или использоваться для распространения дезинформации. Если бы ИИ действительно работал с использованием «секретного языка», это вызвало бы опасения относительно того, смогут ли пользователи использовать его, чтобы обойти эти фильтры. Тот факт, что он может интерпретировать тарабарщину, также отвлекает от того, как инструмент ИИ должен работать и принимать решения, как человек. Хотя язык, используемый ИИ, может вызвать некоторые проблемы с безопасностью, он не предполагает, что он обладает интеллектом, необходимым для того, чтобы изобрести свой собственный, чтобы уклониться от контроля человека (это не Скайнет). В 2017 году Facebook был вынужден закрыть пару чат-ботов с искусственным интеллектом после того, как они начали использовать свой собственный язык для общения друг с другом без участия человека. Сносуэлл сказал, что исследователи не могут проверить, как на самом деле работает DALL-E 2, поскольку лишь немногие избранные имеют доступ к его коду и могут его модифицировать.
Что делает DALL-E 2?
Его первоначальная версия DALL-E, названная в честь испанского художника-сюрреалиста Сальвадора Дали и робота Pixar ВАЛЛ-И, была выпущена в январе 2021 года в качестве ограниченного теста способов использования ИИ для представления концепций — от скучных описаний до полетов фантазии. Некоторые из ранних работ, созданных ИИ, включали манекен во фланелевой рубашке, иллюстрацию редиски, выгуливающей собаку, и эмодзи пингвинёнка. Во второй версии DALL-E 2 текстовые подсказки могут быть изменены, чтобы заменить части ранее существовавшего изображения, добавить новые функции или изменить точку зрения или художественный стиль. Он даже может автоматически заполнять детали, такие как тени, при добавлении объекта или даже настраивать фон, чтобы он соответствовал, если объект перемещается или удаляется. DALL-E 2 построен на системе компьютерного зрения под названием CLIP, разработанной OpenAI и анонсированной в прошлом году.
CLIP смотрит на изображение и резюмирует содержимое так же, как это сделал бы человек, и они перевернули это — unCLIP — для DALL-E 2. OpenAI обучил модель с помощью изображений, и они отсеяли некоторые нежелательные материалы, ограничив ее способность создавать оскорбительный контент. Каждое изображение также содержит водяной знак, чтобы четко показать, что оно было создано искусственным интеллектом, а не человеком, или что это реальная фотография, что снижает риск дезинформации. Он также не может генерировать узнаваемые лица на основе имени, даже те, которые узнаваемы только по произведениям искусства, таким как Мона Лиза, создавая отличительные вариации.