ИИ научили генерировать видео по описанию
Исследователи из Google представили две модели машинного обучения, генерирующие видеозаписи по текстовому описанию: одна лучше справляется с короткими запросами, а другая синтезирует длинные ролики по более детальным описаниям. За несколько дней до этого аналогичный алгоритм представили исследователи из Meta. Три статьи с описанием алгоритмов (Imagen Video и Phenaki от Google, Make-A-Video от Meta) опубликованы на arXiv.org.
В середине 2010-х годов алгоритмы машинного обучения, работающие с визуальным контентом, в основном использовались для его улучшения. Например, были широко распространены приложения для обработки фотографий, такие как Prisma, которое «перерисовывало» снимки в заданном стиле. Затем благодаря развитию архитектуры генеративно-состязательных нейросетей стало появляться много алгоритмов, качественно генерирующих те или иные объекты с нуля, например, широкую известность получила нейросеть NVIDIA для генерации лиц несуществующих людей.
В последние пару лет активное развитие получило смежное, но другое направление: генерация визуального контента по текстовому описанию (Text-to-Image). В 2021 году широкую известность получила нейросеть DALL-E от OpenAI, а также связанная с ней нейросеть CLIP. DALL-E умела генерировать изображения не определенных классов, а произвольные, соответствующие текстовому описанию, которое дал пользователь. К примеру, ее можно было попросить нарисовать горный пейзаж, домашнее животное или даже сцену, которой, вероятно, никогда не существовало в действительности, например, астронавта на коне. Уже в этом году OpenAI показала вторую версию этого алгоритма, а вскоре свой аналог под названием Imagen выпустила и Google.
Затем настал следующий этап: исследователи в области машинного обучения начали изучать возможность генерации видео по текстовому описанию (Text-to-Video). Работы в этом направлении велись и раньше, но существенного прогресса удалось достичь лишь недавно. В мае нейросеть под названием CogVideo выпустили китайские исследователи, а теперь практически одновременно (с разницей менее, чем в неделю) исследователи из Meta и Google представили сразу три таких алгоритма, показывающих существенно лучшие результаты: Meta разработала алгоритм Make-A-Video, а Google создала Imagen Video и Phenaki.
Первыми из этой тройки алгоритмов вышел Make-A-Video. В его основе лежит Text-to-Image модель, основанная на архитектуре DALL-E 2. Она получает на вход текст, превращает его в эмбеддинг (сжатое векторное представление тех же данных) и подает его на декодировщик, который диффузионным методом формирует двумерное изображение.
Чтобы научить алгоритм учитывать и временное измерение, разработчики модифицировали сверточные слои и слои внимания так, чтобы они генерировали на основе эмбеддинга не одно изображение, а сразу 16, причем так, чтобы объекты и их движения были согласованы между кадрами. После этого полученный набор из первичных кадров разрешением 64 на 64 пикселя пропускается через нейросети, интерполирующие кадры и повышающие их разрешение. На выходе получается видео длиной в несколько секунд и разрешением 768 на 768 пикселей.
Примечательно, что во время обучения не использовались пары «текст — видео». Вместо этого Make-A-Video обучалась на парах «текст — изображение» и неразмеченных видео. Алгоритм обучали на датасетах LAION-5B (с отфильтрованными изображениями для взрослых, фотографиями с токсичным текстом или водяными знаками), WebVid-10M и HD-VILA-10M. Авторы показали, что Make-A-Video превосходит CogVideo и другие аналоги как по количественным метрикам (FVD и IS), так и при оценке добровольцами. Кроме генерации новых видео с нуля алгоритм умеет «оживлять» изображения. Примеры генерации и интерактивные демонстрации опубликованы на сайте проекта.
С разницей всего в несколько дней исследователи из Google представили два аналогичных алгоритма для генерации видео по текстовому запросу. Первый из них основан на Text-to-Image модели Imagen и получил название Imagen Video. Во многом схема работы алгоритма аналогична Make-A-Video. Получая текстовое описание ролика, он с помощью кодировщика T5 формирует эмбеддинг, а затем с помощью диффузионной сети Videо U-Net, представленной ранее в этом году, генерирует 16 пространственно и временно согласованных между собой кадров разрешением 40 на 24 пикселя. После этого каскад нейросетей интерполирует кадры, увеличивая их количество до 128 (5,3 секунды при 24 кадрах в секунду), и повышает разрешение до 1280 на 768 пикселей.
Imagen Video обучался на собственном датасете Google, состоящем из 14 миллионов пар «текст — видео» (это важное отличие от Make-A-Video, который обучался без таких пар), а также 60 миллионов пар «текст — изображение». Кроме того авторы использовали датасет LAION-400M с парами «текст — изображение». В отличие от коллег из Meta, исследователи из Google не сравнили качество работы Imagen Video с CogVideo (и из-за почти одновременной публикации вряд ли имели возможность сравнить с Make-A-Video). Результаты работы алгоритма можно увидеть на сайте проекта.
Вторая генеративная нейросеть от Google называется Phenaki. Она была представлена один день с Make-A-Video, но не получила такой широкой огласки от Google. Phenaki отличается от двух других описанных алгоритмов тем, что предназначена для генерации более длинных роликов по более длинному и детальному текстовому запросу. Авторы отмечают, что длина может достигать и нескольких минут (а теоретически длина не ограничена). Также алгоритм отличается и по схеме работы. Авторы взяли за основу трансформер-нейросеть ViViT, которая преобразует видео в пространственно-временные токены. Также они использовали текстовый трансформер T5X, который преобразует в эмбеддинги текст. Так исследователи свели проблему генерации видео по описанию к задаче переноса между двумя последовательностями, которую как раз эффективно решают нейросети типа трансформер. В результате получаются видео произвольной длины в разрешении 128 на 128 пикселей.
Phenaki обучали на 15 миллионах пар «текст — видео» и 450 миллионах пар «текст — изображение» (из них 400 миллионов из LAION-400M). Авторы сравнили работу алгоритма количественно с некоторыми аналогами и показали сравнимые результаты по FID. Примеры можно увидеть на сайте проекта. Авторам всех трех работ удалось достичь большого прогресса в качестве генерации видео, в том числе его стабильности. Но, как это было и с большинством алгоритмов для генерации изображений, разработчики не опубликовали модели в открытом доступе, опасаясь, что такая технология может быть использована во вред.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Меню
Архив материалов
Проекты наших читателей
Контакты исследователей
Подписка на новости
Проекты
Новости криптозоологии
Хроники природных катастроф
Новости
26.02.2002 - 05.07.2002
05.08.2002 - 23.10.2002 (562)
24.10.2002 - 17.01.2003 (585)
20.01.2003 - 07.04.2003 (709)
08.04.2003 - 01.08.2003 (709)
04.08.2003 - 18.11.2003 (763)
19.11.2003 - 31.03.2004 (721)
01.04.2004 - 13.08.2004 (825)
16.08.2004 - 22.11.2004 (782)
23.11.2004 - 28.03.2005 (756)
29.03.2005 - 29.07.2005 (807)
30.08.2005 - 02.12.2005 (927)
05.12.2005 - 21.04.2006 (912)
24.04.2006 - 23.10.2006 (999)
24.10.2006 - 03.05.2007 (999)
04.05.2007 - 28.01.2008 (999)
29.01.2008 - 12.01.2009 (999)
13.01.2009 - 07.07.2009 (966)
22.08.2009 - 21.01.2010 (996)
22.01.2010 - 22.06.2010 (1000)
23.06.2010 - 14.01.2011 (1042)
17.01.2011 - 31.05.2011 (1008)
01.06.2011 - 03.11.2011 (1003)
07.11.2011 - 16.03.2012 (996)
19.03.2012 - 09.06.2012 (1009)
13.06.2012 - 07.09.2012 (988)
10.09.2012 - 19.11.2012 (1004)
20.11.2012 - 14.01.2013 (1015)
15.01.2013 - 22.02.2013 (1000)
23.02.2013 - 08.04.2013 (991)
09.04.2013 - 31.05.2013 (1015)
01.06.2013 - 18.07.2013 (992)
19.07.2013 - 03.09.2013 (1014)
04.09.2013 - 20.10.2013 (1001)
21.10.2013 - 02.12.2013 (1001)
03.12.2013 - 18.01.2014 (997)
19.01.2014 - 07.03.2014 (994)
08.03.2014 - 24.04.2014 (1000)
25.04.2014 - 18.06.2014 (1005)
19.06.2014 - 15.08.2014 (1019)
16.08.2014 - 07.10.2014 (1006)
08.10.2014 - 16.11.2014 (995)
17.11.2014 - 25.12.2014 (1004)
26.12.2014 - 09.02.2015 (989)
10.02.2015 - 20.03.2015 (998)
21.03.2015 - 22.04.2015 (1001)
23.04.2015 - 29.05.2015 (997)
29.05.2015 - 30.06.2015 (995)
30.06.2015 - 29.07.2015 (990)
29.07.2015 - 26.08.2015 (998)
27.08.2015 - 24.09.2015 (988)
25.09.2015 - 22.10.2015 (991)
23.10.2015 - 18.11.2015 (1000)
18.11.2015 - 16.12.2015 (990)
17.12.2015 - 23.01.2016 (1000)
24.01.2016 - 25.02.2016 (1000)
26.02.2016 - 24.03.2016 (1000)
24.03.2016 - 16.04.2016 (990)
17.04.2016 - 19.05.2016 (999)
20.05.2016 - 22.06.2016 (993)
23.06.2016 - 01.08.2016 (995)
02.08.2016 - 12.09.2016 (990)
13.09.2016 - 25.10.2016 (989)
26.10.2016 - 05.12.2016 (995)
06.12.2016 - 15.01.2017 (995)
16.01.2017 - 23.02.2017 (990)
24.02.2017 - 03.04.2017 (994)
04.04.2017 - 18.05.2017 (1000)
19.05.2017 - 05.07.2017 (1000)
06.07.2017 - 24.08.2017 (1000)
25.08.2017 - 06.10.2017 (991)
07.10.2017 - 15.11.2017 (990)
16.11.2017 - 24.12.2017 (1000)
25.12.2017 - 04.02.2018 (990)
05.02.2018 - 17.03.2018 (1000)
18.03.2018 - 02.05.2018 (990)
03.05.2018 - 11.06.2018 (1000)
12.06.2018 - 18.07.2018 (990)
19.07.2018 - 24.08.2018 (1000)
25.08.2018 - 02.10.2018 (1000)
03.10.2018 - 07.11.2018 (990)
08.11.2018 - 13.12.2018 (990)
14.12.2018 - 23.01.2019 (1000)
24.01.2019 - 02.03.2019 (1000)
03.03.2019 - 12.04.2019 (1010)
13.04.2019 - 23.05.2019 (990)
24.05.2019 - 03.07.2019 (1000)
04.07.2019 - 11.08.2019 (1000)
12.08.2019 - 16.09.2019 (990)
17.09.2019 - 26.10.2019 (1000)
27.10.2019 - 12.12.2019 (1000)
13.12.2019 - 25.01.2020 (1000)
26.01.2020 - 06.03.2020 (990)
07.03.2020 - 16.04.2020 (1010)
17.04.2020 - 19.05.2020 (1000)
20.05.2020 - 25.06.2020 (990)
26.06.2020 - 04.08.2020 (995)
05.08.2020 - 16.09.2020 (1005)
17.09.2020 - 26.10.2020 (990)
27.10.2020 - 27.11.2020 (990)
28.11.2020 - 07.01.2021 (990)
08.01.2021 - 15.02.2021 (1000)
16.02.2021 - 31.03.2021 (1000)
01.04.2021 - 12.05.2021 (1000)
13.05.2021 - 14.06.2021 (990)
15.06.2021 - 26.07.2021 (980)
27.07.2021 - 31.08.2021 (990)
01.09.2021 - 07.10.2021 (1000)
08.09.2021 - 07.11.2021 (1000)
08.11.2021 - 10.12.2021 (1000)
11.12.2021 - 24.01.2022 (990)
25.01.2022 - 04.03.2022 (1000)
05.03.2022 - 10.04.2022 (990)
11.04.2022 - 17.05.2022 (1000)
18.05.2022 - 23.06.2022 (980)
24.06.2022 - 31.07.2022 (990)
01.08.2022 - 13.09.2022 (990)
14.09.2022 - 21.10.2022 (990)
22.10.2022 - 29.11.2022 (1000)
30.11.2022 - 22.01.2023 (1000)
23.01.2023 - 02.03.2023 (990)
03.03.2023 - 21.04.2023 (1000)
22.04.2023 - 13.06.2023 (990)
14.06.2023 - 02.08.2023 (1000)
03.08.2023 - 21.09.2023 (1000)
22.09.2023 - 06.11.2023 (990)
07.11.2023 - 24.12.2023 (990)
25.12.2023 - 18.02.2024 (1000)
19.02.2024 - 05.04.2024 (990)
06.04.2024 - 25.05.2024 (1000)
26.05.2024 - 26.07.2024 (1000)
26.07.2024 - 25.08.2024 (990)
26.08.2024 - 28.09.2024 (980)
29.09.2024 - 01.11.2024 (1000)
02.11.2024 - 02.12.2024 (980)
03.12.2024 - 08.01.2025 (990)
09.01.2025 - 09.02.2025 (1000)
10.02.2025 - 20.03.2025 (1000)
21.03.2025 - 03.05.2025 (990)
04.05.2025 - ...
Статьи
Статьи: раздел 1 (1024)
Статьи: раздел 2 (1006)
Статьи: раздел 3 (1000)
Статьи: раздел 4 (1044)
Статьи: раздел 5 (1001)
Статьи: раздел 6 (1000)
Статьи: раздел 7 (1000)
Статьи: раздел 8 (1013)
Статьи: раздел 9 (1000)
Статьи: раздел 10 (1000)
Статьи: раздел 11 (329)
Статьи: раздел 12 (1000)
Статьи: раздел 13 (730)
Лента новостей

Альтман поборется с Маском в сфере мозговых имплантов

Аннунаки. Древние боги или инопланетные гости

Астрономы обнаружили Око Саурона

Как мозг решает, что стоит запомнить

Межзвездный объект интенсивно выделяет воду

Метеорит оказался старше самой Земли

Музыкант уверен, что он отчасти инопланетянин

Мумии Наска могут быть неизвестным видом людей

Мысли прочитали с рекордной точностью

Ноев ковчег имел форму пирамиды

Нужна ли резервная копия человечества на Марсе

Обнаружили предел человеческого воображения

Пилот считает, что он обнаружил самолет Эрхарт

Поиск внеземных зондов в Солнечной системе

Проклятые и зловещие места Австралии

Смитсоновский институт прячет кости гигантов

Странное явление возле железнодорожных путей

Таинственный свет в небе казался НЛО

Эксцентричный миллионер ищет НЛО

Я посетила призрачный остров кукол в Мексике

Спорт как путь к успеху. Почему регулярные тренировки меняют жизнь

Астрономы заметили в космосе Ксеноморфа

Влияние планет может подавлять солнечную активность

Гигантскую струю сняли из космоса

Единственный способ выживания человечества

Зафиксировали самый удаленный быстрый радиовсплеск

Земле грозит свидание с технологией пришельцев

ИИ и технология точного редактирования генов

Инопланетяне уже находятся на Земле

Искаженные временные линии и разрушающиеся измерения

Материнский корабль инопланетян приближается к Земле

Мы нашли свидетельства существования жизни на Марсе

НЛО заметили в Швеции

НЛО уклоняется от оружия из Звездных войн

Око Саурона обнаружили в глубоком космосе

Подходит ли ИИ для вашей творческой работы

Предотвращение столкновений в космосе

Происхождение черных дыр

Серьезная угроза существованию Рапа-Нуи

Технологии для изучения будущих образцов с Марса

Экзопланета TRAPPIST-1d не пригодна для жизни

Воспользуйтесь услугами суррогатной матери-робота

Враждебный корабль пришельцев летит к Земле

Встречи с НЛО, которые попали в заголовки газет

ИИ снижает уровень профессионализма врачей

Инопланетный корабль приближается к Земле

Инопланетяне реальны и бывают четырех видов

Китай создал систему противоспутникового оружия

Конгресс видел доказательства существования НЛО

Многочисленные наблюдения НЛО в небе США

НЛО над Эвергрином

Пилоты видели бегство инопланетян над Бразилией

Представитель США поделилась данными о НЛО

Серебристый диск был замечен над Голландией

Таинственная калифорнийская уфологическая группа

Тайна Туринской плащаницы раскрыта

Треугольный НЛО над аэропортом Солт-Лейк-Сити

Фитопланктон на экзопланете K2-18b

Флотилия НЛО над штатом Мэн

ЦРУ обнаружило Ковчег Завета

Человечество может выжить после появления сверх-ИИ

Борьба за то, чтобы связать наш мозг с ИИ

Вирусное видео НЛО над Малверн-Хиллз

Инсайдер делает ошеломляющее заявление об НЛО

Конгрессвумен от Флориды делится данными об НЛО

Кроликов-мутантов в Колорадо называют франкенштейнами

Мутанты с щупальцами захватывают США

Наблюдения НЛО в районе Спрингфилда

НЛО позади собаки имеет обыденное объяснение

Новое мозговое устройство считывает внутреннюю речь

Ночь, когда Анна Паулина Луна увидела НЛО

Огромный архив НЛО служит уникальным ресурсом

Паника распространяется по США из кроликов-мутантов

Почему мы видим демонов

Случайно обнаружили доказательства Большого взрыва

Теория заговора о том, что Титаник никогда тонул

У людей есть 116 дней до прибытия инопланетян

Устройство, которое может открыть невидимую Вселенную

Чиновники США осознают реальность НЛО

Что политик сказала о НЛО

Яркий объект замечен над США

Божественная кровь обнаружена на Туринской плащанице

Вы видели, как НЛО вращался в небе

Марсоход обнаружил загадочный шлем

Межпространственные существа - реальность

Метеорит врезался в чью-то гостиную

Мужчина, выгуливающий собаку, снял НЛО

Око Саурона обнаружили в глубоком космосе

Откуда на Земле появилась вода

Письмо помогло найти затерянный в джунглях город майя

Политик рассказала о контакте с непознанным

Рэпер думает, что у него инопланетное происхождение

Собака помогла запечатлеть НЛО

Соратник Трампа делает громкие заявления об НЛО

Странные огни замечены над Миннесотой

Темная зеркальная Вселенная скрывается рядом

Фото летательных аппаратов, созданных не человеком

Фрагмент, который может разрушить теорию струн

Человечество достигло пика развития ИИ

Это был не НЛО - это были космические силы

Яркий свет над Квебеком завораживает

Лучшие фильмы с Марго Робби. Путь к голливудскому успеху

Вероятность погибнуть от удара астероида

Верующие видят лицо Иисуса на Туринской плащанице

Генетическое тестирование инопланетных мумий

Заметили пробуждение сверхмассивной черной дыры

Исследование бурного прошлого Венеры

Кролики-франкенштейны захватывают США

Медленно вращающиеся ореолы темной материи

Метеорит Джорджии на 20 млн лет старше самой Земли

Механизм, который восстановит ваши глаза

НАСА призывают отправить сообщение объекту 3I/ATLAS

Одна сторона Земли теряет тепло гораздо быстрее

Описание проверки оборотней в Пентагоне

Пентагон пытается разоблачить объект Агуадильи

Полная картина ночных облаков на Марсе

Потрясающий вид на третьего межзвездного гостя

Проще ли добывать астероиды на Луне, чем сами астероиды

Разгадали тайну пропажи космической серы

Сняли невидимый глазом НЛО

Тайна катастрофы Амелии Эрхарт может быть раскрыта

Утаенные данные о вторжении НЛО на Восточное побережье

Анализ и присвоение названия новому метеориту

Встреча с зелеными человечками в Кентукки

Зафиксировали самый удаленный быстрый радиовсплеск

Зонд Люси мог бы посетить еще один астероид

ИИ научился быть злым без чьих-либо указаний

Кинолог запечатлел очень быстрый НЛО

Метеорит пробил дыру в крыше дома в Джорджии

Мужчина, выгуливая свою собаку, запечатлел НЛО

На экзолунах у Альфа Центавра может быть жизнь

Планеты, на которых нет воды, могут производить жидкости

Появление новой статуи на острове Пасхи

Пропавший самолет Амелии Эрхарт найден

Пугающая информация о таинственном межзвездном объекте

Расы инопланетян, о которых известно властям США

Сфера Дайсона поможет воскрешать мертвых

Сходство между околосмертными переживаниями и наркотиками

Туринская плащаница. Это кто-то другой, а не Иисус

Физический варп-двигатель возможен

Черный куб замечен над базой ВВС Райт-Паттерсон

Шокирующее открытие после падения метеорита в Джорджии

База инопланетян в кратере Лаут на Марсе

Видел ли Дональд Трамп НЛО

Древние постройки обнаружили на Меркурии

Завод по производству лунного кирпича

Загадочная комета, прилетевшая из другой системы

НАСА изучает загадочную межзвездную комету

Научились превращать ртуть в золото

НЛО заметили над штатом Нью-Джерси

НЛО наблюдает за семьей в Индии

НЛО оставляет дымный след над Невадой

Обнаружена самая массивная черная дыра

Обнаружены первые звезды Вселенной

Существуют четыре различных вида инопланетян

США используют технологии инопланетян

Таинственный гигант, скрывающийся за черными дырами

Три фигуры появляются на Солнце

Удивительный полет к черной дыре

Федеральный советник по науке призывает изучать НЛО

Экзопланета у ближайшей солнцеподобной звезды

Экзотические вихри на картине 'Звездная ночь'

Гигантский пузырь звезды-сверхгиганта удивляет

Когда марсианский грунт распадется на части

Космическая гонка касается не только крупных стран

Криптотерриториальная гипотеза

Литологические особенности ландшафта Марса

Молодая звезда начинает взрываться

НАСА спешит разместить ядерные реакторы на Луне и Марсе

НАСА ускоренно разрабатывает лунный реактор

Недавние вулканические и термальные изменения на Марсе

Поиск жизни на Марсе был явной целью астросообщества

Почему кабинет Трампа дает разные ответы о НЛО

С помощью ChatGPT пишется все больше научных статей

Самая ранняя черная дыра во Вселенной

Свидетельства о кровавом ритуале на Туринской плащанице

Столкновение облаков приводит к вездообразованию

Тайна Бермудского треугольника раскрыта

Тайны космического винограда

Тайны протопланетных дисков

Что нужно знать о Лох-Несском чудовище

Шестеро преемников могли бы исследовать Марс

Бесконечная зима в Европе все ближе

Библейские руины - ключ к тайне Ковчега завета

Библейское море становится кроваво-красным

Власти США знают о четырех расах инопланетян

Наверх
Яндекс.Метрика