Научить роботов ориентироваться в новых условиях непросто. Вы можете обучить их на физических, реальных данных, взятых из записей, сделанных людьми, но их сбор ограничен и дорог. Цифровое моделирование – быстрый, масштабируемый способ научить роботов делать что-то новое, но роботы часто терпят неудачу, когда из виртуальных миров с теми же задачами перемещаются в реальный.
Теперь есть потенциально лучший вариант: новая система, которая использует для разработки виртуальных тренировочных площадок, более точно отражающих физический мир, генеративные модели искусственного интеллекта в сочетании с физическим симулятором. Роботы, обученные с помощью этого метода, достигли более высокого уровня успеха в реальных испытаниях, чем обученные с использованием традиционных методов.
Исследователи использовали систему под названием LucidSim для обучения робота-собаки паркуру, заставляя ее карабкаться через коробку и подниматься по лестнице, хотя она никогда не видела никаких реальных данных. Этот подход демонстрирует, насколько полезным может быть генеративный ИИ, когда дело доходит до обучения роботов выполнению сложных задач. Это также повышает вероятность того, что мы сможем в конечном итоге обучать роботов в полностью виртуальных мирах. Исследование было представлено на конференции по обучению роботов (CoRL) на прошлой неделе.
«Мы находимся в середине промышленной революции в робототехнике», – сказал Гэ Янг, постдок в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института работавший над проектом. LucidSim использует комбинацию генеративных моделей искусственного интеллекта для создания визуальных обучающих данных. Во-первых, исследователи сгенерировали тысячи запросов для ChatGPT, заставив его создать описания ряда сред, которые представляют условия, с которыми робот столкнется в реальном мире, включая различные типы погоды, время суток и условия освещения. Что-то типа этого: «аллея с чайными домиками и маленькими причудливыми магазинчиками, в каждом из которых представлены традиционные орнаменты и каллиграфия» и «солнце освещает несколько неухоженную лужайку».
Эти описания были введены в систему, которая сопоставляет 3D-геометрию и физические данные с изображениями, созданными искусственным интеллектом, создавая короткие видеоролики, отображающие траекторию движения робота. Робот использует эту информацию, чтобы определить высоту, ширину и глубину объектов, по которым ему нужно перемещаться, например, коробки или лестницы.
Исследователи протестировали LucidSim, поручив четвероногому роботу, оснащенному веб-камерой, выполнить несколько задач, включая определение местоположения дорожного конуса или футбольного мяча, перелезание через коробку, а также ходьбу вверх и вниз по лестнице. Робот работал стабильно лучше, чем с системой, обученной на традиционном моделировании. В 20 попытках найти конус LucidSim показал 100% успеха по сравнению с 70% для систем, обученных на стандартном моделировании. Точно так же LucidSim дотягивался до футбольного мяча еще в 20 попытках в 85% случаев, а в другой системе – только в 35%.
Наконец, когда робот работал с LucidSim, он успешно завершил все 10 испытаний по подъему по лестнице, по сравнению с 50% для другой системы.
Эти результаты, вероятно, еще больше улучшатся в будущем, если LucidSim будет опираться непосредственно на сложные генеративные видеомодели, а не на комбинацию языка, изображения и физических моделей, говорит Филипп Изола, доцент Массачусетского технологического института, который работал над исследованием.
Подход исследователей к использованию генеративного ИИ является новым и проложит путь к более интересным новым исследованиям, говорит Махи Шафиулла, аспирант Нью-Йоркского университета, который использует модели ИИ для обучения роботов.
«Возможность обучать робота с нуля исключительно на ситуациях и сценариях, созданных искусственным интеллектом, является значительным достижением и может выйти за рамки машин и распространиться на более универсальных агентов искусственного интеллекта», — говорит Зафейриос Фунтас, старший научный сотрудник Huawei, специализирующийся на искусственном интеллекте, вдохновленном мозгом.
«Термин «роботы» здесь используется очень широко; мы говорим о некоем ИИ, который взаимодействует с реальным миром», — говорит он. «Я могу представить, что технология может быть использована для управления любым видом визуальной информации, от роботов и беспилотных автомобилей до управления экраном компьютера или смартфона».
Что касается следующих шагов, авторы заинтересованы в попытке обучить гуманоидного робота с использованием полностью синтетических данных, что, по их признанию, является амбициозной целью, поскольку двуногие роботы, как правило, менее стабильны, чем их четвероногие собратья. Они также обращают свое внимание на еще одну новую задачу: использование LucidSim для обучения роботизированных рук, которые работают на заводах и кухнях. Задачи, которые они должны выполнять, требуют гораздо большей ловкости и физического понимания, чем бег по местности.