28.02.2018. - Нейросеть научилась делать видеоролики по описанию

Нейросеть научилась делать видеоролики по описанию

Нейросети уже совсем неплохо (а во многих случаях и лучше людей) справляются с распознаванием образов на картинке и способны в общих чертах описать целые сценки. Генеративные нейросети совершают обратное преобразование и могут формировать изображение исходя из его описания, или предугадать следующий кадр исходя из предыдущих.

Бельгийские разработчики пошли еще дальше, соединив эти способности в единую систему, которая создает видеоролики «из ничего», на основе собственного опыта машинного обучения и текста сценария. Об этом Тинне Туйтелаарс (Tinne Tuytelaars) рассказала на прошедшей в США встрече Ассоциации по продвижению искусственного интеллекта (AAAI).

Нейросеть работает в два этапа – по словам Тинне, как бы имитируя творческий процесс человека: на первом этапе формируется размытый, приблизительный «эскиз» каждого кадра, после чего уточняются и добавляются детали. Одной из важных частей такой системы стала дискриминаторная нейросеть, которая сравнивает результат с «настоящими» видеороликами, подходящими под заданный сценарий, и позволяет оценить его качество, совершенствуя работу генеративной части системы.

Нейросеть была обучена на 10 сценах («игра в гольф на траве», «кайтсерфинг в море» и т. п.) и научилась разделять действия и обстоятельства одно от другого, а также могла комбинировать их любым заданным образом, создавая ролики, например про «гольф в бассейне» или «плавание (под парусом) по снегу». Конечно, качество таких анимаций пока далеко от приемлемого: «ролики» продолжительностью около секунды состоят всего из 32 кадров размерами 64х64 пикселя.

Но с той же уверенностью можно гарантировать, что эти цифры будут быстро улучшаться, ведь не так давно и сам кинематограф мог похвастаться лишь мутной, дергающейся и немой картинкой. Если такую нейросеть удастся сделать по-настоящему быстрой и эффективной, Голливуду, возможно, придет конец: достаточно будет взять сценарий – и фильм готов. Пригодится такая возможность и в генерации больших наборов для обучения других нейросетей, и в создании новых алгоритмов сжатия и передачи потокового видео.

Источник