10.04.2022. - ИИ может создавать изображение из текстового описания

ИИ может создавать изображение из текстового описания

Исследователи OpenAI создали новую систему, которая может создавать полное изображение, в том числе астронавта, едущего на лошади, из простого предложения на английском языке. Второе поколение ИИ преобразования текста в изображение, известное как DALL·E 2, способно создавать реалистичные изображения и иллюстрации с более высоким разрешением, чем его предшественник. Исследовательская группа искусственного интеллекта не будет выпускать систему для широкой публики. Новая версия может создавать изображения из простого текста, добавлять объекты в существующие изображения или даже предоставлять различные точки зрения на существующее изображение.

Разработчики наложили ограничения на возможности ИИ, чтобы гарантировать, что он не может создавать ненавистные, расистские или насильственные изображения или использоваться для распространения дезинформации. Его первоначальная версия, названная в честь испанского художника-сюрреалиста Сальвадора Дали и робота Pixar ВАЛЛ-И, была выпущена в январе 2021 года в качестве ограниченного теста способов использования ИИ для представления концепций — от скучных описаний до полетов фантазии. Некоторые из ранних работ, созданных ИИ, включали манекен во фланелевой рубашке, иллюстрацию редиски, выгуливающей собаку, и эмодзи пингвинёнка. Примеры фраз, используемых во втором выпуске для создания реалистичных изображений, включают «космонавт верхом на лошади в фотореалистичном стиле».

На веб-сайте DALL-E 2 это можно настроить для создания изображений «на лету», включая замену космонавта плюшевым мишкой, лошадью, играющей в баскетбол, и отображение ее в виде карандашного рисунка или поп-арта в стиле Энди Уорхола. Удовлетворяя даже самого сложного клиента с бесконечными запросами на исправление, ИИ может создавать несколько версий каждого изображения из одного предложения. Одна из специфических особенностей DALL-E 2 позволяет «раскрашивать», то есть делать существующую картинку и добавлять другие функции, например, фламинго в бассейне. Он может автоматически заполнять детали, такие как тени, при добавлении объекта или даже настраивать фон, чтобы он соответствовал, если объект перемещается или удаляется.

«DALL·E 2 изучил взаимосвязь между изображениями и текстом, используемым для их описания», — объяснил OpenAI. «Он использует процесс, называемый «рассеиванием», который начинается с узора из случайных точек и постепенно изменяет этот узор в сторону изображения, когда он распознает определенные аспекты этого изображения». DALL-E 2 построен на основе системы компьютерного зрения под названием CLIP, разработанной OpenAI и анонсированной в прошлом году. «DALL-E 1 просто взял наш подход GPT-3 из языка и применил его для создания изображения: мы сжали изображения в набор слов и научились предсказывать, что будет дальше», — сказал The Verge научный сотрудник OpenAI Прафулла Дхаривал. . К сожалению, этот процесс ограничивал реализм изображений, поскольку не всегда отражал качества, которые люди считали наиболее необходимыми.

CLIP смотрит на изображение и обобщает содержимое так же, как это сделал бы человек, и они перевернули это — unCLIP — для DALL-E 2. OpenAI обучил модель с помощью изображений, и они отсеяли некоторые нежелательные материалы, ограничив ее способность создавать оскорбительный контент. Каждое изображение также содержит водяной знак, чтобы четко показать, что оно было создано искусственным интеллектом, а не человеком, или что это реальная фотография, что снижает риск дезинформации. Он также не может генерировать узнаваемые лица на основе имени, даже те, которые узнаваемы только по произведениям искусства, таким как Мона Лиза, создавая отличительные вариации. «Мы ограничили способность DALL·E 2 генерировать сцены насилия, ненависти или изображения для взрослых», — сообщают исследователи OpenAI.

«Удалив наиболее откровенный контент из обучающих данных, мы свели к минимуму воздействие этих концепций на DALL·E 2. «Мы также использовали передовые методы для предотвращения создания фотореалистичных изображений лиц реальных людей, в том числе общественных деятелей». Хотя оно не будет общедоступным, некоторым исследователям будет предоставлен доступ, и в будущем оно может быть встроено в другие приложения, что потребует соблюдения строгих политик в отношении контента. Это не позволяет пользователям создавать насильственный, взрослый или политический контент среди других категорий.

«Мы не будем генерировать изображения, если наши фильтры идентифицируют текстовые подсказки и загружаемые изображения, которые могут нарушать наши правила. У нас также есть автоматизированные системы и системы мониторинга человека для защиты от неправомерного использования», — пояснил представитель. «Мы работали с внешними экспертами и предварительно знакомим с DALL·E 2 ограниченное число доверенных пользователей, которые помогут нам узнать о возможностях и ограничениях технологии. «Мы планируем пригласить больше людей для предварительного просмотра этого исследования с течением времени, поскольку мы изучаем и итеративно улучшаем нашу систему безопасности».

Источник