29.04.2022. - Создана нейросеть для ускоренного обучения роботов

Создана нейросеть для ускоренного обучения роботов

С потоком заказов электронной коммерции складской робот берет кружки с полки и кладет их в коробки для отправки. Все идет своим чередом, пока склад не обработает изменение, и теперь робот должен брать более высокие и узкие кружки, которые хранятся вверх дном. Перепрограммирование этого робота включает в себя ручную маркировку тысяч изображений, которые показывают ему, как брать эти новые кружки, а затем обучение системы заново. Но новая техника, разработанная исследователями Массачусетского технологического института, потребует лишь нескольких человеческих демонстраций, чтобы перепрограммировать робота. Этот метод машинного обучения позволяет роботу поднимать и размещать невиданные ранее объекты в случайных позах, с которыми он никогда не сталкивался. В течение 10–15 минут робот будет готов выполнить новую задачу по сбору и размещению.

В этом методе используется нейронная сеть, специально разработанная для реконструкции форм трехмерных объектов. С помощью всего лишь нескольких демонстраций система использует то, что нейронная сеть узнала о трехмерной геометрии, для захвата новых объектов, похожих на те, что показаны в демонстрациях. В симуляциях и с использованием настоящей роботизированной руки исследователи показали, что их система может эффективно манипулировать невиданными ранее кружками, мисками и бутылками, расположенными в случайных позах, используя всего 10 демонстраций для обучения робота. «Наш главный вклад — это общая способность гораздо более эффективно предоставлять новые навыки роботам, которым необходимо работать в более неструктурированных средах, где может быть много вариаций. Концепция обобщения через построение — замечательная возможность, потому что эта задача, как правило, намного сложнее», — говорит Энтони Симеонов, аспирант кафедры электротехники и компьютерных наук (EECS) и соавтор статьи.

Симеонов написал статью вместе с ведущим автором Илун Ду, аспирантом EECS; Андреа Тальясаччи, научный сотрудник Google Brain; Джошуа Б. Тененбаум, профессор карьеры Пола Э. Ньютона в области когнитивных наук и вычислений на кафедре мозга и когнитивных наук и член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); Альберто Родригес, выпускник 1957 года, доцент кафедры машиностроения; и старшие авторы Пулкит Агравал, профессор CSAIL, и Винсент Сицманн, новый доцент EECS. Исследование будет представлено на Международной конференции по робототехнике и автоматизации.

Захватывающая геометрия

Робота можно научить поднимать определенный предмет, но если этот предмет лежит на боку (возможно, он упал), робот воспринимает это как совершенно новый сценарий. Это одна из причин, по которой системам машинного обучения так трудно обобщать новые ориентации объектов. Чтобы преодолеть эту проблему, исследователи создали новый тип модели нейронной сети, поле нейронного дескриптора (NDF), которое изучает трехмерную геометрию класса предметов. Модель вычисляет геометрическое представление для определенного элемента, используя трехмерное облако точек, которое представляет собой набор точек данных или координат в трех измерениях. Точки данных можно получить с камеры глубины, которая предоставляет информацию о расстоянии между объектом и точкой обзора. Хотя сеть была обучена моделированию на большом наборе данных синтетических 3D-форм, ее можно напрямую применять к объектам в реальном мире.

Команда разработала NDF со свойством, известным как эквивариантность. С этим свойством, если модели показать изображение вертикальной кружки, а затем показать изображение той же кружки на боку, она понимает, что вторая кружка — это тот же объект, только повернутый. «Эта эквивариантность позволяет нам гораздо эффективнее справляться со случаями, когда объект, который вы наблюдаете, имеет произвольную ориентацию», — говорит Симеонов. По мере того, как NDF учится реконструировать формы похожих объектов, он также учится связывать связанные части этих объектов. Например, он узнает, что ручки кружек похожи, даже если одни кружки выше или шире других, или имеют ручки меньше или длиннее.

«Если бы вы хотели сделать это с другим подходом, вам пришлось бы вручную маркировать все части. Вместо этого наш подход автоматически обнаруживает эти части по реконструкции формы», — говорит Ду. Исследователи используют эту обученную модель NDF, чтобы научить робота новому навыку, используя всего несколько физических примеров. Они перемещают руку робота на ту часть объекта, которую они хотят захватить, например, на край миски или ручку кружки, и записывают расположение кончиков пальцев. «Поскольку NDF так много знает о трехмерной геометрии и о том, как реконструировать формы, он может делать выводы о структуре новой формы, что позволяет системе переносить демонстрации на новые объекты в произвольных позах», — объясняет Ду.

Выбор победителя

Они протестировали свою модель в симуляции и на реальном роботе-манипуляторе, используя в качестве объектов кружки, миски и бутылки. Их метод показал 85-процентный успех в задачах по сбору и размещению новых объектов в новых ориентациях, в то время как наилучший базовый уровень смог достичь только 45-процентного успеха. Успех означает схватить новый объект и поместить его в нужное место, например, повесить кружку на стойку. Многие базовые линии используют информацию о 2D-изображении, а не о 3D-геометрии, что затрудняет для этих методов интеграцию эквивариантности. Это одна из причин, по которой метод NDF работает намного лучше.

Хотя исследователи были довольны его работой, их метод работает только для конкретной категории объектов, на которых он обучается. Робот, обученный подбирать кружки, не сможет подбирать коробки или наушники, поскольку эти объекты имеют геометрические особенности, слишком отличающиеся от того, на чем обучалась сеть. «В будущем было бы идеально масштабировать его до множества категорий или полностью отказаться от понятия категории», — говорит Симеонов. Они также планируют адаптировать систему для нежестких объектов и, в долгосрочной перспективе, позволить системе выполнять задачи по перемещению при изменении целевой области.

«Насколько эффективно мы можем обучать роботов новым навыкам манипулирования, зависит от способности роботов обобщать всего лишь несколько демонстраций. Эта работа показывает, как робот может уверенно переносить демонстрации взятия или помещения объекта на ранее невидимые объекты», — говорит Дитер Фокс. , профессор компьютерных наук и инженерии в Вашингтонском университете, который не участвовал в этом исследовании. «Это исследование использует последние достижения в области глубокого обучения для представления нейронных объектов и представляет несколько очень умных инноваций, которые делают их хорошо подходящими для имитации обучения для манипулирования роботами. Эксперименты в реальном мире чрезвычайно впечатляют, и я ожидаю, что многие исследователи будут опираться на них. полученные результаты." Эта работа частично поддерживается Агентством перспективных оборонных исследовательских проектов, Агентством оборонной науки и технологий Сингапура и Национальным научным фондом.

Источник