ИИ научили генерировать видео по описанию
Исследователи из Google представили две модели машинного обучения, генерирующие видеозаписи по текстовому описанию: одна лучше справляется с короткими запросами, а другая синтезирует длинные ролики по более детальным описаниям. За несколько дней до этого аналогичный алгоритм представили исследователи из Meta. Три статьи с описанием алгоритмов (Imagen Video и Phenaki от Google, Make-A-Video от Meta) опубликованы на arXiv.org.
В середине 2010-х годов алгоритмы машинного обучения, работающие с визуальным контентом, в основном использовались для его улучшения. Например, были широко распространены приложения для обработки фотографий, такие как Prisma, которое «перерисовывало» снимки в заданном стиле. Затем благодаря развитию архитектуры генеративно-состязательных нейросетей стало появляться много алгоритмов, качественно генерирующих те или иные объекты с нуля, например, широкую известность получила нейросеть NVIDIA для генерации лиц несуществующих людей.
В последние пару лет активное развитие получило смежное, но другое направление: генерация визуального контента по текстовому описанию (Text-to-Image). В 2021 году широкую известность получила нейросеть DALL-E от OpenAI, а также связанная с ней нейросеть CLIP. DALL-E умела генерировать изображения не определенных классов, а произвольные, соответствующие текстовому описанию, которое дал пользователь. К примеру, ее можно было попросить нарисовать горный пейзаж, домашнее животное или даже сцену, которой, вероятно, никогда не существовало в действительности, например, астронавта на коне. Уже в этом году OpenAI показала вторую версию этого алгоритма, а вскоре свой аналог под названием Imagen выпустила и Google.
Затем настал следующий этап: исследователи в области машинного обучения начали изучать возможность генерации видео по текстовому описанию (Text-to-Video). Работы в этом направлении велись и раньше, но существенного прогресса удалось достичь лишь недавно. В мае нейросеть под названием CogVideo выпустили китайские исследователи, а теперь практически одновременно (с разницей менее, чем в неделю) исследователи из Meta и Google представили сразу три таких алгоритма, показывающих существенно лучшие результаты: Meta разработала алгоритм Make-A-Video, а Google создала Imagen Video и Phenaki.
Первыми из этой тройки алгоритмов вышел Make-A-Video. В его основе лежит Text-to-Image модель, основанная на архитектуре DALL-E 2. Она получает на вход текст, превращает его в эмбеддинг (сжатое векторное представление тех же данных) и подает его на декодировщик, который диффузионным методом формирует двумерное изображение.
Чтобы научить алгоритм учитывать и временное измерение, разработчики модифицировали сверточные слои и слои внимания так, чтобы они генерировали на основе эмбеддинга не одно изображение, а сразу 16, причем так, чтобы объекты и их движения были согласованы между кадрами. После этого полученный набор из первичных кадров разрешением 64 на 64 пикселя пропускается через нейросети, интерполирующие кадры и повышающие их разрешение. На выходе получается видео длиной в несколько секунд и разрешением 768 на 768 пикселей.
Примечательно, что во время обучения не использовались пары «текст — видео». Вместо этого Make-A-Video обучалась на парах «текст — изображение» и неразмеченных видео. Алгоритм обучали на датасетах LAION-5B (с отфильтрованными изображениями для взрослых, фотографиями с токсичным текстом или водяными знаками), WebVid-10M и HD-VILA-10M. Авторы показали, что Make-A-Video превосходит CogVideo и другие аналоги как по количественным метрикам (FVD и IS), так и при оценке добровольцами. Кроме генерации новых видео с нуля алгоритм умеет «оживлять» изображения. Примеры генерации и интерактивные демонстрации опубликованы на сайте проекта.
С разницей всего в несколько дней исследователи из Google представили два аналогичных алгоритма для генерации видео по текстовому запросу. Первый из них основан на Text-to-Image модели Imagen и получил название Imagen Video. Во многом схема работы алгоритма аналогична Make-A-Video. Получая текстовое описание ролика, он с помощью кодировщика T5 формирует эмбеддинг, а затем с помощью диффузионной сети Videо U-Net, представленной ранее в этом году, генерирует 16 пространственно и временно согласованных между собой кадров разрешением 40 на 24 пикселя. После этого каскад нейросетей интерполирует кадры, увеличивая их количество до 128 (5,3 секунды при 24 кадрах в секунду), и повышает разрешение до 1280 на 768 пикселей.
Imagen Video обучался на собственном датасете Google, состоящем из 14 миллионов пар «текст — видео» (это важное отличие от Make-A-Video, который обучался без таких пар), а также 60 миллионов пар «текст — изображение». Кроме того авторы использовали датасет LAION-400M с парами «текст — изображение». В отличие от коллег из Meta, исследователи из Google не сравнили качество работы Imagen Video с CogVideo (и из-за почти одновременной публикации вряд ли имели возможность сравнить с Make-A-Video). Результаты работы алгоритма можно увидеть на сайте проекта.
Вторая генеративная нейросеть от Google называется Phenaki. Она была представлена один день с Make-A-Video, но не получила такой широкой огласки от Google. Phenaki отличается от двух других описанных алгоритмов тем, что предназначена для генерации более длинных роликов по более длинному и детальному текстовому запросу. Авторы отмечают, что длина может достигать и нескольких минут (а теоретически длина не ограничена). Также алгоритм отличается и по схеме работы. Авторы взяли за основу трансформер-нейросеть ViViT, которая преобразует видео в пространственно-временные токены. Также они использовали текстовый трансформер T5X, который преобразует в эмбеддинги текст. Так исследователи свели проблему генерации видео по описанию к задаче переноса между двумя последовательностями, которую как раз эффективно решают нейросети типа трансформер. В результате получаются видео произвольной длины в разрешении 128 на 128 пикселей.
Phenaki обучали на 15 миллионах пар «текст — видео» и 450 миллионах пар «текст — изображение» (из них 400 миллионов из LAION-400M). Авторы сравнили работу алгоритма количественно с некоторыми аналогами и показали сравнимые результаты по FID. Примеры можно увидеть на сайте проекта. Авторам всех трех работ удалось достичь большого прогресса в качестве генерации видео, в том числе его стабильности. Но, как это было и с большинством алгоритмов для генерации изображений, разработчики не опубликовали модели в открытом доступе, опасаясь, что такая технология может быть использована во вред.
Источник
При использовании материалов с сайта активная ссылка на него обязательна
Меню
Архив материалов
Проекты наших читателей
Контакты исследователей
Подписка на новости
Проекты
Новости криптозоологии
Хроники природных катастроф
Новости
26.02.2002 - 05.07.2002
05.08.2002 - 23.10.2002 (562)
24.10.2002 - 17.01.2003 (585)
20.01.2003 - 07.04.2003 (709)
08.04.2003 - 01.08.2003 (709)
04.08.2003 - 18.11.2003 (763)
19.11.2003 - 31.03.2004 (721)
01.04.2004 - 13.08.2004 (825)
16.08.2004 - 22.11.2004 (782)
23.11.2004 - 28.03.2005 (756)
29.03.2005 - 29.07.2005 (807)
30.08.2005 - 02.12.2005 (927)
05.12.2005 - 21.04.2006 (912)
24.04.2006 - 23.10.2006 (999)
24.10.2006 - 03.05.2007 (999)
04.05.2007 - 28.01.2008 (999)
29.01.2008 - 12.01.2009 (999)
13.01.2009 - 07.07.2009 (966)
22.08.2009 - 21.01.2010 (996)
22.01.2010 - 22.06.2010 (1000)
23.06.2010 - 14.01.2011 (1042)
17.01.2011 - 31.05.2011 (1008)
01.06.2011 - 03.11.2011 (1003)
07.11.2011 - 16.03.2012 (996)
19.03.2012 - 09.06.2012 (1009)
13.06.2012 - 07.09.2012 (988)
10.09.2012 - 19.11.2012 (1004)
20.11.2012 - 14.01.2013 (1015)
15.01.2013 - 22.02.2013 (1000)
23.02.2013 - 08.04.2013 (991)
09.04.2013 - 31.05.2013 (1015)
01.06.2013 - 18.07.2013 (992)
19.07.2013 - 03.09.2013 (1014)
04.09.2013 - 20.10.2013 (1001)
21.10.2013 - 02.12.2013 (1001)
03.12.2013 - 18.01.2014 (997)
19.01.2014 - 07.03.2014 (994)
08.03.2014 - 24.04.2014 (1000)
25.04.2014 - 18.06.2014 (1005)
19.06.2014 - 15.08.2014 (1019)
16.08.2014 - 07.10.2014 (1006)
08.10.2014 - 16.11.2014 (995)
17.11.2014 - 25.12.2014 (1004)
26.12.2014 - 09.02.2015 (989)
10.02.2015 - 20.03.2015 (998)
21.03.2015 - 22.04.2015 (1001)
23.04.2015 - 29.05.2015 (997)
29.05.2015 - 30.06.2015 (995)
30.06.2015 - 29.07.2015 (990)
29.07.2015 - 26.08.2015 (998)
27.08.2015 - 24.09.2015 (988)
25.09.2015 - 22.10.2015 (991)
23.10.2015 - 18.11.2015 (1000)
18.11.2015 - 16.12.2015 (990)
17.12.2015 - 23.01.2016 (1000)
24.01.2016 - 25.02.2016 (1000)
26.02.2016 - 24.03.2016 (1000)
24.03.2016 - 16.04.2016 (990)
17.04.2016 - 19.05.2016 (999)
20.05.2016 - 22.06.2016 (993)
23.06.2016 - 01.08.2016 (995)
02.08.2016 - 12.09.2016 (990)
13.09.2016 - 25.10.2016 (989)
26.10.2016 - 05.12.2016 (995)
06.12.2016 - 15.01.2017 (995)
16.01.2017 - 23.02.2017 (990)
24.02.2017 - 03.04.2017 (994)
04.04.2017 - 18.05.2017 (1000)
19.05.2017 - 05.07.2017 (1000)
06.07.2017 - 24.08.2017 (1000)
25.08.2017 - 06.10.2017 (991)
07.10.2017 - 15.11.2017 (990)
16.11.2017 - 24.12.2017 (1000)
25.12.2017 - 04.02.2018 (990)
05.02.2018 - 17.03.2018 (1000)
18.03.2018 - 02.05.2018 (990)
03.05.2018 - 11.06.2018 (1000)
12.06.2018 - 18.07.2018 (990)
19.07.2018 - 24.08.2018 (1000)
25.08.2018 - 02.10.2018 (1000)
03.10.2018 - 07.11.2018 (990)
08.11.2018 - 13.12.2018 (990)
14.12.2018 - 23.01.2019 (1000)
24.01.2019 - 02.03.2019 (1000)
03.03.2019 - 12.04.2019 (1010)
13.04.2019 - 23.05.2019 (990)
24.05.2019 - 03.07.2019 (1000)
04.07.2019 - 11.08.2019 (1000)
12.08.2019 - 16.09.2019 (990)
17.09.2019 - 26.10.2019 (1000)
27.10.2019 - 12.12.2019 (1000)
13.12.2019 - 25.01.2020 (1000)
26.01.2020 - 06.03.2020 (990)
07.03.2020 - 16.04.2020 (1010)
17.04.2020 - 19.05.2020 (1000)
20.05.2020 - 25.06.2020 (990)
26.06.2020 - 04.08.2020 (995)
05.08.2020 - 16.09.2020 (1005)
17.09.2020 - 26.10.2020 (990)
27.10.2020 - 27.11.2020 (990)
28.11.2020 - 07.01.2021 (990)
08.01.2021 - 15.02.2021 (1000)
16.02.2021 - 31.03.2021 (1000)
01.04.2021 - 12.05.2021 (1000)
13.05.2021 - 14.06.2021 (990)
15.06.2021 - 26.07.2021 (980)
27.07.2021 - 31.08.2021 (990)
01.09.2021 - 07.10.2021 (1000)
08.09.2021 - 07.11.2021 (1000)
08.11.2021 - 10.12.2021 (1000)
11.12.2021 - 24.01.2022 (990)
25.01.2022 - 04.03.2022 (1000)
05.03.2022 - 10.04.2022 (990)
11.04.2022 - 17.05.2022 (1000)
18.05.2022 - 23.06.2022 (980)
24.06.2022 - 31.07.2022 (990)
01.08.2022 - 13.09.2022 (990)
14.09.2022 - 21.10.2022 (990)
22.10.2022 - 29.11.2022 (1000)
30.11.2022 - 22.01.2023 (1000)
23.01.2023 - 02.03.2023 (990)
03.03.2023 - 21.04.2023 (1000)
22.04.2023 - 13.06.2023 (990)
14.06.2023 - 02.08.2023 (1000)
03.08.2023 - 21.09.2023 (1000)
22.09.2023 - 06.11.2023 (990)
07.11.2023 - 24.12.2023 (990)
25.12.2023 - 18.02.2024 (1000)
19.02.2024 - 05.04.2024 (990)
06.04.2024 - 25.05.2024 (1000)
26.05.2024 - 26.07.2024 (1000)
26.07.2024 - 25.08.2024 (990)
26.08.2024 - 28.09.2024 (980)
29.09.2024 - 01.11.2024 (1000)
02.11.2024 - 02.12.2024 (980)
03.12.2024 - 08.01.2025 (990)
09.01.2025 - 09.02.2025 (1000)
10.02.2025 - 20.03.2025 (1000)
21.03.2025 - 03.05.2025 (990)
04.05.2025 - ...
Статьи
Статьи: раздел 1 (1024)
Статьи: раздел 2 (1006)
Статьи: раздел 3 (1000)
Статьи: раздел 4 (1044)
Статьи: раздел 5 (1001)
Статьи: раздел 6 (1000)
Статьи: раздел 7 (1000)
Статьи: раздел 8 (1013)
Статьи: раздел 9 (1000)
Статьи: раздел 10 (1000)
Статьи: раздел 11 (329)
Статьи: раздел 12 (1000)
Статьи: раздел 13 (730)
Лента новостей

Впервые отправили в стратосферу чипированных крыс

Есть ли в океанических мирах зоны, пригодные для жизни

Загадка пластины Эдмонтона

Заклинания, ведуны-целители и охота на ведьм

Заявили об обнаружении могилы Влада Дракулы

ИИ грозит массовыми увольнениями

Как сегодня выглядит место падения Тунгусского метеорита

Маленький шаг к планированию жизни на Марсе

Минерал, которого там не должно быть нашли на Рюгу

Новое исследование о горячих Юпитерах

Новое оружие вызывает отключение электроэнергии

Первый взгляд на экзопланету GJ 504b

План Трампа угрожает космическому превосходству США

Подсчитали количество пригодных для жизни экзопланет

Почему речь политиков при власти становится запутанной

Способность ИИ к пониманию собственных слов

Тайна исчезновения подледного океана Харона

Тайны удивительного Меркурия

Три электрона ведут себя как куча

Экзопланетные системы разнообразны

Актриса делится историей наблюдения НЛО

Величайшее затонувшее сокровище Америки

Величайшие уфологи из Аризоны

Внеземные встречи в Колорадо

Водонапорная башня в стиле НЛО в Иллинойсе

Главные уфологические песни

Его история о похищении в Аризоне стала легендой

Ежегодный рынок поделок на инопланетную тематику

На что похожи корабли инопланетян

НЛО, инопланетяне и неизвестные существа

Осознанные сновидения - уникальное состояние Сознания

Пентагон распространял мифы об НЛО в Зоне 51

Популярные у инопланетян канадские города

Секретная подземная база, управляемая инопланетянами

Странные НЛО беспокоят полицию Аргентины

Странный объект, запечатленный в Массачусетсе

Сфера Мосула, снятая над Ираком

Уфолог выступает в районной библиотеке Брайтона

Уфологические романы об инопланетянах и неизведанном

Ученые озадачены обнаруженным межзвездным объектом

Лечение алкоголизма. Как работает современная наркологическая помощь

Где же самолет Амелии Эрхарт

Дискуссия о вымирание неандертальцев

Звездная система, пропитанная спиртом

Леди встретилась с легендарным чудовищем Несси

Миллионы долларов DARPA выбросило на ветер

НЛО чаще всего наблюдают в Великобритании

Новаторская книга раскрывает секреты НЛО

Новые улики в деле Амелии Эрхарт

Пиктограмма Джокера появилась возле Стоунхенджа

Представлены научные данные о сооружениях под пирамидами

Приостановка регулирования ИИ приведет мир к катастрофе

Путеводитель по событиям в области НЛО

Раскрыли источник загадочного космического импульса

Раскрыт геометрический секрет витрувианского человека

Революционное открытие в Великой пирамиде Египта

Таинственная подземная база инопланетян

Три мозга объединили с помощью одной только мысли

Усилия по принятию закона о раскрытии информации о НЛО

Уфологический фестиваль проходит в Розуэлле

Экзопланета, жаждущая смерти

Гравитационная постоянная - тайна раскрыта!

Апокалиптические астероиды подождут

Атлантида всего в двух милях от побережья Испании

Всемирный день НЛО. История, значение, мероприятия

Галактики, которые мы никогда раньше не видели

Глубинное государство изобрело уфологию

ИИ за пару дней решил загадку супербактерий

Как создать отказоустойчивый квантовый компьютер

Калифорния лидирует по числу наблюдений НЛО

Карьера в области исследований инопланетян

Миссури входит в число уфо-штатов США

Наблюдения НЛО, которые потрясли Индию и весь мир

Необъяснимые наблюдения в небе Вирджинии

Обнаружено самое любимое число ИИ - и это не 42

Обнаружили метеориты с Меркурия

Почему Всемирный день НЛО отмечается 2 июля

Предсказание, что за термоядерным синтезом стоит энергия

Странная история о невидимом мальчике

Странное погодное явление над Португалией

Фиолетовый свет в небе Иордании

Что было замечено в небе Флориды

Экономия с помощью промокодов на Яндекс.Маркете. Как покупать выгодно

Преимущества заказа торта к празднику. Как выбрать идеальный десерт для особого случая

Отказ в визе в Румынию, или как перестать бояться

Большого кота заметили в сумерках

Бортинженер НАСА рассказал об инопланетных технологиях

Маленький городок привлекает уфологов

Миллионы наушников можно превратить в жучки

Мозговой имплант Neuralink получили уже семь пациентов

Моя ночь в мотеле с привидениями и клоунами

Над США взорвался метеорит массой более тонны

Необычный НЛО, снятый в Колорадо

Неразгаданные головоломки

Неужели так наступит Конец света

Обнаружили затерянный египетский город

Правительство США скрывает связи с инопланетянами

Самые безумные традиции летнего солнцестояния

Самые опасные места для жизни в Великобритании

Создание реальных Франкенштейнов

Спутник заговорил после смерти в 1967 году

Существо, которое существует между жизнью и нежизнью

Человечество достигнет Сингулярности в течение 20 лет

Что было замечено в небе Нью-Гэмпшира

Я была набожной католичкой ... пока не умерла

Больше шансов обнаружить НЛО в Техасе

Бывший пилот истребителя чуть не столкнулся с НЛО

Всемирный день уфологов

Гигантский кальмар показал свое тайное лицо

Какими сверхспособностями будут обладать люди

Лже-копы пытались украсть сферообразный НЛО

Марк Цукерберг может превратить США в диктатуру

Мини-черные дыры могут скрываться в вашем доме

Мистификации, связанные с изменением климата

Пентагон фабриковал доказательства о НЛО

Повод задуматься о необъяснимых явлениях

Почему в 30 лет можно чувствовать себя на 60

Свидетельства очевидцев НЛО в США

Таинственный объект приближается к Вашингтону

Уфологи приписывают инопланетянам любые подвиги

Факты и история инцидента с НЛО в Розуэлле

Что было замечено в небе Иллинойса

Энтузиасты отмечают Всемирный день НЛО

ИИ ChatGPT выдает ответы на чужие запросы

Ключи к пониманию того как распространяется рак

Лишайники указали на обитаемость экзопланет

НЛО облучил радиацией жителя Канады

Очень массивные звезды выбрасывают еще больше вещества

Полеты звезд не изменили климат Земли

Роли аккреций в эволюции планет земной группы

Странное существо с вытянутой головой

Тайна озера Тахо

Японские хирурги удалили ребенку зуб из носа

Амбициозный законопроект по НЛО провалился

Города, в которых чаще всего видели НЛО

Звездообразный объект над Вашингтоном

Каковы шансы обнаружить НЛО в США

Конгресс США запретил сотрудникам пользоваться WhatsApp

Оружейные бароны прикрывались НЛО

Подводный аппарат обнаружил секретные сооружения

Призрачный шлейф, поднимающийся из мантии Земли

Разгадка тайны падающего объекта Массачусетса

Секретное оружие, которое может остановить слепоту

Сигарообразный аппарат пронёсся по марсианскому небу

Этим летом вращение Земли ускорится

Астрономы послушали 27 экзопланет на наличие ВЦ

Впервые нашли галактику из темной материи

Заночевавший в лесу охотник встретил инопланетян

Звездные вспышки могут помешать поиску жизни

ИИ может научиться разрабатывать биологическое оружие

Киберпсихологи впервые нашли способ усилить эмоции

Нейросети осознали, что их проверяют и вели себя примерно

Хирурги провели роботизированную пересадку сердца

Человек, который мог по желанию стать невидимым

Шестой пациент с мозговым имплантом Neuralink

Антигравитация - поехали

Важные секреты формирования планет

Вулкан поможет определить обитаемость Марса

Гигантская комета в облаке Оорта раскрывает свои секреты

Жизнь на Марсе - можно ли извлечь уроки

Исследования проливают свет на темную материю

Как органика выживает в экстремальных межзвездных условиях

Лунная пыль менее токсична, чем городское загрязнение

Нашли адрес пропавшей материи во Вселенной

Новая волна откровений от 'живого Нострадамуса'

Обнаружены три экзопланеты типа горячий Юпитер

От шпионажа до телепортации и антигравитации

Планетарная угроза Земле реальна

Планетообразующие диски теряют газ быстрее, чем пыль

Почему закаты зимой такие красивые

Почему США лидируют по количеству наблюдений НЛО

Прародитель всех метеорных потоков может угрожать Луне

Проблема, которую могут решить только квантовые вычисления

Пузырчатые мышцы помогут освоить космические полеты

Слияние двойной нейтронной звезды образовало черную дыру

Слои глины Марса были устойчивым местом для древней жизни

Китайский автобренд Foton. Надежность, универсальность и современные решения для бизнеса

Почему стоит посетить Казань. Культурное богатство, история и уникальная атмосфера

Выгоды установки микромаркета самообслуживания для бизнеса

Когда деньги ушли не туда. Как работает чарджбэк

Подвесной потолок Грильято - архитектурная революция коммерческих пространств

Американские военные заметили дискообразный НЛО

Борьба властей и уфологического сообщества

Бывший пилот истребителя чуть не столкнулся с НЛО

Дискообразный НЛО запечатлен американскими военными

Достоянием общественности стали кадры с НЛО

Наверх
Яндекс.Метрика