Разработан новый скоростной способ обучения роботов

Представьте себе, что вы покупаете робота для выполнения бытовых задач. Этот робот был создан и обучен на заводе определенному набору задач и никогда не видел предметов в вашем доме.

Когда вы попросите его взять кружку с вашего кухонного стола, он может не узнать вашу кружку (возможно, потому, что на ней нарисовано необычное изображение, скажем, талисмана Массачусетского технологического института — бобра Тима). Таким образом, робот не справится с задачей.

Сейчас, когда мы обучаем этих роботов, мы не знаем причин их отказа. Поэтому вы просто разводите руками и говорите: «Ладно, придется начинать все сначала». Важнейшим компонентом, которого не хватает в этой системе, является возможность демонстрации роботом причин неудачи, чтобы пользователь мог дать ему обратную связь, — говорит Энди Пенг, аспирант кафедры электротехники и вычислительной техники (EECS) Массачусетского технологического института.

Пенг и ее коллеги из Массачусетского технологического института, Нью-Йоркского университета и Калифорнийского университета в Беркли создали систему, которая позволяет человеку быстро и с минимальными усилиями научить робота тому, что он хочет сделать.

Когда робот терпит неудачу, система с помощью алгоритма генерирует контрфактические объяснения, описывающие, что должно было измениться, чтобы робот добился успеха. Например, возможно, робот смог бы поднять кружку, если бы она была определенного цвета. Система показывает эти контрфактические объяснения человеку и просит его высказать свое мнение о причинах неудачи робота. Затем система использует эту обратную связь и контрфактические объяснения для генерации новых данных, которые используются для тонкой настройки робота.

Тонкая настройка заключается в изменении модели машинного обучения, которая уже была обучена выполнять одну задачу, с тем чтобы она могла выполнять вторую, аналогичную задачу.

Исследователи протестировали эту методику на симуляторах и обнаружили, что она позволяет обучать роботов более эффективно, чем другие методы. Роботы, обученные по этой схеме, показали лучшие результаты, а процесс обучения занял меньше времени у человека.

Такая схема может помочь роботам быстрее осваиваться в новых условиях, не требуя от пользователя технических знаний. В перспективе это может стать шагом к тому, чтобы роботы общего назначения могли эффективно выполнять повседневные задачи для пожилых людей или людей с ограниченными возможностями в различных условиях.

В работе Пенга, ведущего автора, принимают участие соавторы Авив Нетаньяху, аспирант EECS, Марк Хо, доцент Технологического института Стивенса, Тяньмин Шу, постдок MIT, Андреа Бобу, аспирант UC Berkeley, и старшие авторы Джули Шах, профессор аэронавтики и астронавтики MIT и директор группы интерактивной робототехники в Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), и Пулкит Агравал, профессор CSAIL. Результаты исследования будут представлены на Международной конференции по машинному обучению.

Обучение на рабочем месте

Роботы часто терпят неудачу из-за смены распределения — роботу предъявляются объекты и пространства, которых он не видел во время обучения, и он не понимает, что делать в этой новой среде.

Одним из способов переучивания робота на выполнение конкретной задачи является имитационное обучение. Пользователь может продемонстрировать правильную задачу, чтобы научить робота, что нужно делать. Если пользователь пытается научить робота поднимать кружку, но демонстрирует белую кружку, робот может усвоить, что все кружки белые. Тогда он не сможет поднять красную, синюю или коричневую кружку «Тим-Бобер».

Обучение робота распознаванию того, что кружка — это кружка, независимо от ее цвета, может занять тысячи демонстраций.

Я не хочу демонстрировать 30 000 кружек. Я хочу продемонстрировать только одну кружку. Но затем мне нужно обучить робота, чтобы он понял, что может взять кружку любого цвета, — говорит Пенг.

Для этого система исследователей определяет, какой именно объект важен пользователю (кружка) и какие элементы не важны для решения задачи (возможно, цвет кружки не имеет значения). На основе этой информации система генерирует новые, синтетические данные, изменяя эти «неважные» визуальные представления. Этот процесс называется дополнением данных.

Схема состоит из трех этапов. Сначала показывается задача, которая привела к отказу робота. Затем она собирает демонстрацию пользователем желаемых действий и генерирует контрфактические данные, перебирая все признаки в пространстве, которые показывают, что нужно изменить, чтобы робот справился с задачей.

Система показывает пользователю эти контрфакты и запрашивает обратную связь, чтобы определить, какие визуальные концепции не влияют на желаемое действие. Затем она использует эту обратную связь для создания множества новых дополненных демонстраций.

Таким образом, пользователь может продемонстрировать, как он берет в руки одну кружку, а система, изменив ее цвет, создаст демонстрацию, показывающую требуемое действие с тысячами разных кружек. Эти данные используются для тонкой настройки робота.

Создание контрфактических объяснений и получение обратной связи от пользователя очень важны для успешного применения этой технологии, — считает Пенг.

От человеческих рассуждений к рассуждениям роботов

Поскольку их работа направлена на то, чтобы включить человека в цикл обучения, исследователи протестировали свою методику на людях. Сначала они провели исследование, в котором спросили людей, помогают ли им контрфактические объяснения выявить элементы, которые можно изменить без ущерба для выполнения задачи.

Это было настолько очевидно, что сразу стало понятно. Люди так хороши в этом типе контрфактических рассуждений. И именно этот контрфактический шаг позволяет перевести человеческие рассуждения в рассуждения роботов таким образом, чтобы они имели смысл, — говорит она.

Затем они применили свою схему на трех симуляторах, где роботам ставились задачи: проложить маршрут к целевому объекту, подобрать ключ и открыть дверь, а также подобрать нужный объект и положить его на столешницу. В каждом случае робот обучался быстрее, чем при использовании других методик, и при этом требовал меньше демонстраций от пользователя.

В дальнейшем исследователи надеются протестировать эту схему на реальных роботах. Они также хотят сосредоточиться на сокращении времени, которое требуется системе для создания новых данных с помощью генеративных моделей машинного обучения.

Мы хотим, чтобы роботы делали то же, что и люди, и чтобы они делали это семантически осмысленно. Человек, как правило, работает в абстрактном пространстве, где он не задумывается о каждом свойстве изображения. В конечном счете, речь идет о том, чтобы дать роботу возможность выучить хорошее, похожее на человеческое представление на абстрактном уровне, — говорит Пенг.

18.07.2023

Подписаться: Телеграм | Дзен | Вконтакте


Хайтек

Nature Communications: Нагрев улучшил свойства пьезоэлектриков в 8 раз
Nature Communications: Нагрев улучшил свойства пьезоэлектриков в 8 раз

Ученые из Мичиганского университета обнар...

Новая система снимает быстрое вращение без размытия в кадре
Новая система снимает быстрое вращение без размытия в кадре

Ученые создали систему, которая в реально...

Открыт новый способ проверить геолокацию без риска
Открыт новый способ проверить геолокацию без риска

Многие приложения в смартфонах постоянно ...

Новый материал поглощает 5G и убивает бактерии
Новый материал поглощает 5G и убивает бактерии

С развитием 5G электромагнитные волны прочно в...

ИИ создал сверхпрочный сплав для медицины и авиации
ИИ создал сверхпрочный сплав для медицины и авиации

Металлы, известные как многокомпонентные ...

Разработана молекула-детектор для нафталина
Разработана молекула-детектор для нафталина

Электроны умеют путешествовать — вн...

Билет в один конец: ученые открыли ток, который не возвращается
Билет в один конец: ученые открыли ток, который не возвращается

Что получится, если совместить сверхпрово...

Жидкость вместо проводов: новая эра мягких роботов
Жидкость вместо проводов: новая эра мягких роботов

Ученые из Бристольского университета созд...

Nature Communications: Как топология улучшает квантовые технологии
Nature Communications: Как топология улучшает квантовые технологии

Физики из Лозанны и Констанца создал...

Ученые впервые перевезли протоны в автономной ловушке
Ученые впервые перевезли протоны в автономной ловушке

Международная коллаборация BASE, в которо...

Инженеры ТПУ монтируют защиту для станции СКИФ
Инженеры ТПУ монтируют защиту для станции СКИФ

Команда инженеров из Томского политеха со...

Создан материал, который сжимается при растяжении
Создан материал, который сжимается при растяжении

Когда вы тянете резинку, она растяги...

Стирать можно: ученые создали умную ткань, которая не боится воды
Стирать можно: ученые создали умную ткань, которая не боится воды

Представьте футболку, которая следит за п...

Без лишних движений: новая система считает деформации волокна на лету
Без лишних движений: новая система считает деформации волокна на лету

Ученые создали систему распределенного оптовол...

Найдена уязвимость в процессорах Intel, открывающая доступ хакерам
Найдена уязвимость в процессорах Intel, открывающая доступ хакерам

Процессоры в наших компьютерах умеют пред...

Как малые спутники научились принимать больше сигналов
Как малые спутники научились принимать больше сигналов

Мир постепенно движется к глобальной связ...

Роботы для мытья окон: плюсы и минусы
Роботы для мытья окон: плюсы и минусы

Представьте, что вам больше не ...

Робот с мягкой кожей хватает предметы почти как человек
Робот с мягкой кожей хватает предметы почти как человек

Когда вы тянетесь за бутылкой, вам&n...

Радуга в клетке: ученые укротили цветовой хаос в AR-очках
Радуга в клетке: ученые укротили цветовой хаос в AR-очках

В развитии технологий дополненной реальности в...

Ученые предложили управлять тараканами с помощью ультрафиолета
Ученые предложили управлять тараканами с помощью ультрафиолета

Ученые из Университета Осаки придумали, к...

Серебро на фритюре: как фастфуд спасает электронику
Серебро на фритюре: как фастфуд спасает электронику

Ученые придумали необычный способ извлекать се...

Поиск на сайте

ТОП - Новости мира, инновации

Ученые нашли причину мозгового тумана после ковида
Ученые нашли причину мозгового тумана после ковида
СДВГ и вес: почему одни города добавляют килограммы, а другие сжигают
СДВГ и вес: почему одни города добавляют килограммы, а другие сжигают
Прибор размером с микроволновку раскроет секреты спутника Юпитера
Прибор размером с микроволновку раскроет секреты спутника Юпитера
Природа знает толк в геометрии: раскрыт секрет формы лепестков роз
Природа знает толк в геометрии: раскрыт секрет формы лепестков роз
Nature Communications: Нагрев улучшил свойства пьезоэлектриков в 8 раз
Nature Communications: Нагрев улучшил свойства пьезоэлектриков в 8 раз
Рыжий код: как ген кошачьего окраса десятилетиями водил ученых за нос
Рыжий код: как ген кошачьего окраса десятилетиями водил ученых за нос
Когда диета бессильна: ученые нашли скрытую причину целиакии
Когда диета бессильна: ученые нашли скрытую причину целиакии
Ученые выяснили, почему звезды в соседней галактике движутся вразнобой
Ученые выяснили, почему звезды в соседней галактике движутся вразнобой
Ученые выяснили, как в Средние века относились к инвалидам
Ученые выяснили, как в Средние века относились к инвалидам
Новая система снимает быстрое вращение без размытия в кадре
Новая система снимает быстрое вращение без размытия в кадре

Новости компаний, релизы

Как Камчатский университет развивает науку: новые лаборатории и открытия
От школьных проектов до заводских решений: чем живет нефтехимия в Нижнекамске
Бактерии против грибов: как наука защищает картофель без химии
Овцы вместо мышей: как ученые нашли новый способ тестировать материалы для зубов
Пробирки, зелень и взрывы: фестиваль для тех, кто любит науку