В MIT разрабатывают бытовых роботов, наделенных здравым смыслом

С помощью большой языковой модели инженеры Массачусетского технологического института позволили роботам самостоятельно исправлять ошибки и выполнять работу по дому.

Роботов учат выполнять все более сложные бытовые задачи — от вытирания пролитых жидкостей до подачи еды. Многие из таких домашних роботов учатся через подражание: их программируют на копирование движений, которые человек выполняет физически.

Оказалось, что роботы — отличные имитаторы. Но если инженеры не запрограммируют их на адаптацию ко всем возможным ударам и толчкам, роботы не всегда будут знать, как справиться с подобными ситуациями, если не начать выполнять задание с чистого листа.

Теперь инженеры Массачусетского технологического института намерены придать роботам немного здравого смысла, когда они сталкиваются с ситуациями, которые сбивают их с намеченного пути. Они разработали метод, который соединяет данные о движении робота со «здравым смыслом» больших языковых моделей, или LLM.

Их подход позволяет роботу логически разбирать многие бытовые задачи на подзадачи и физически адаптироваться к сбоям в рамках подзадачи, чтобы робот мог двигаться дальше без необходимости возвращаться и начинать задачу с нуля — и без необходимости инженерам явно программировать исправление всех возможных сбоев на этом пути.

Подражательное обучение — это основной подход к созданию бытовых роботов. Но если робот слепо подражает траектории движения человека, крошечные ошибки могут накапливаться и в конечном итоге свести на нет всю работу, — говорит Янвей Ванг, аспирант кафедры электротехники и вычислительной техники Массачусетского технологического института (EECS).

С помощью нашего метода робот может самостоятельно исправлять ошибки выполнения и повышать общую успешность задачи.

Ванг и его коллеги подробно описывают свой новый подход в исследовании, которое они представят на Международной конференции по изучению представлений (ICLR) в мае. Соавторами исследования являются аспиранты EECS Цун-Хсуан Ванг и Цзяюань Мао, Майкл Хагеноу, постдок факультета аэронавтики и астронавтики Массачусетского технологического института (AeroAstro), и Джули Шах, профессор аэронавтики и астронавтики Массачусетского технологического института имени Х.Н. Слейтера.

Языковая задача

Исследователи иллюстрируют свой новый подход на примере простой задачи: зачерпнуть шарики из одной миски и пересыпать их в другую. Чтобы выполнить эту задачу, инженеры обычно перемещают робота по одной траектории — зачерпывая и пересыпая. Они могут проделать это несколько раз, чтобы дать роботу возможность имитировать несколько человеческих демонстраций.

Но человеческая демонстрация — это одна длинная, непрерывная траектория, — говорит Ванг.

Команда поняла, что, хотя человек может продемонстрировать одну задачу за один раз, эта задача зависит от последовательности подзадач, или траекторий. Например, робот должен сначала дотянуться до миски, прежде чем зачерпнуть, а затем зачерпнуть шарики, прежде чем переместиться к пустой миске, и так далее. Если робот совершит ошибку во время выполнения любой из этих подзадач, единственным выходом будет остановка и начало работы с самого начала, если только инженеры не обозначат каждую подзадачу и не запрограммируют или не соберут новые демонстрации для восстановления робота после указанного сбоя, чтобы робот мог самокорректироваться в нужный момент.

Такой уровень планирования очень утомителен, — говорит Ванг.

Вместо этого он и его коллеги обнаружили, что часть этой работы может быть выполнена автоматически с помощью LLM. Эти модели глубокого обучения обрабатывают огромные библиотеки текстов, которые они используют для установления связей между словами, предложениями и абзацами. Благодаря этим связям LLM может генерировать новые предложения, основываясь на том, что он узнал о том, какое слово, скорее всего, следует за предыдущим.

В свою очередь, исследователи обнаружили, что помимо предложений и абзацев, LLM можно попросить составить логический список подзадач, которые будут задействованы в задаче. Например, если попросить ЛЛМ перечислить действия, связанные с пересыпанием шариков из одной миски в другую, он может выдать последовательность таких глаголов, как «достать», „зачерпнуть“, „перенести“ и „пересыпать“.

У LLM есть способ рассказать вам, как выполнить каждый шаг задачи, на естественном языке. Непрерывная демонстрация человека — это воплощение этих шагов в физическом пространстве, — говорит Ванг.

Мы хотели соединить эти два понятия, чтобы робот автоматически знал, на каком этапе выполнения задачи он находится, и мог самостоятельно перепланировать и восстановить работу.

Составление карты шариков

Для своего нового подхода команда разработала алгоритм, позволяющий автоматически связывать метку на естественном языке LLM для конкретной подзадачи с положением робота в физическом пространстве или изображением, кодирующим состояние робота. Сопоставление физических координат робота или изображения его состояния с меткой на естественном языке известно как «привязка». Новый алгоритм команды разработан для обучения „классификатора заземления“, то есть он учится автоматически определять, в какой семантической подзадаче находится робот — например, „дотянуться“ или „зачерпнуть“ — с учетом его физических координат или изображения.

Классификатор заземления облегчает этот диалог между тем, что робот делает в физическом пространстве, и тем, что LLM знает о подзадачах и ограничениях, на которые нужно обращать внимание в рамках каждой подзадачи, — объясняет Ванг.

Команда продемонстрировала этот подход в экспериментах с роботизированной рукой, которую они обучили задаче по сбору мрамора. Экспериментаторы обучали робота, физически направляя его на выполнение задачи: сначала дотянуться до миски, зачерпнуть шарики, перенести их в пустую миску и высыпать в нее. После нескольких демонстраций команда использовала предварительно обученный LLM и попросила модель перечислить шаги, связанные с зачерпыванием шариков из одной миски в другую. Затем исследователи использовали свой новый алгоритм, чтобы связать определенные LLM подзадачи с данными о траектории движения робота. Алгоритм автоматически научился сопоставлять физические координаты робота в траекториях и соответствующий вид изображения с заданной подзадачей.

Затем команда позволила роботу самостоятельно выполнить задачу по зачерпыванию воды, используя только что полученные классификаторы заземления. По мере того как робот выполнял все этапы задания, экспериментаторы толкали и подталкивали его, сбивая шарики с ложки в разных точках. Вместо того чтобы останавливаться и начинать все с начала или продолжать вслепую, не имея шариков на ложке, бот был способен к самокоррекции и завершал каждую подзадачу, прежде чем переходить к следующей. (Например, он убеждался, что успешно зачерпнул шарики, прежде чем переложить их в пустую миску).

С нашим методом, когда робот совершает ошибки, нам не нужно просить людей программировать или давать дополнительные демонстрации того, как восстанавливаться после неудач, — говорит Ванг.

Это очень интересно, потому что сейчас прилагаются огромные усилия для обучения бытовых роботов с помощью данных, собранных на телеоперационных системах. Теперь наш алгоритм может преобразовать эти данные в надежное поведение робота, способное выполнять сложные задачи, несмотря на внешние возмущения.

Иллюстрация: Jose-Luis Olivares, MIT. Предоставили Yanwei Wang и Julie Shah

25.03.2024


Подписаться в Telegram



Хайтек

Small Methods: Сублимация кристаллов диарилэтена — контроль над формой
Small Methods: Сублимация кристаллов диарилэтена — контроль над формой

Фотомеханические материалы из фотохромных...

Квантовые датчики обеспечат технологическую революцию к 2045 году
Квантовые датчики обеспечат технологическую революцию к 2045 году

Квантовые датчики находятся в авангарде т...

Стало известно, зачем ЕС инвестирует 24 млн евро в полупроводники
Стало известно, зачем ЕС инвестирует 24 млн евро в полупроводники

Европейский союз предпринимает решительные шаг...

В МИФИ создали интеллектуальную систему контроля работы 3D-принтеров
В МИФИ создали интеллектуальную систему контроля работы 3D-принтеров

Сотрудники Снежинского физико-технического инс...

VCU: Аддитивное производство удешевляет производство магнитов
VCU: Аддитивное производство удешевляет производство магнитов

Новое исследование изменит производство традиц...

Российские ученые доказали теорию акустической турбулентности
Российские ученые доказали теорию акустической турбулентности

Исследователи нашли новый способ моделирования...

AIS: Носимый робот WeaRo снизит риск травм на производстве
AIS: Носимый робот WeaRo снизит риск травм на производстве

Ученые разработали инновационного мягкого носи...

Детектор sPHENIX готовится раскрыть тайны кварк-глюонной плазмы
Детектор sPHENIX готовится раскрыть тайны кварк-глюонной плазмы

Опираясь на наследие предшественника PHEN...

PRA: Виноград поможет создать более совершенные квантовые технологии
PRA: Виноград поможет создать более совершенные квантовые технологии

Обычный виноград может улучшить работу квантов...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

Small Methods: Сублимация кристаллов диарилэтена — контроль над формой
Small Methods: Сублимация кристаллов диарилэтена — контроль над формой
Натуралисты помогли выявить изменения в признаках насекомоопыляемых растений
Натуралисты помогли выявить изменения в признаках насекомоопыляемых растений
Физики разработали алгоритм для изучения запутанности в квантовых системах
Физики разработали алгоритм для изучения запутанности в квантовых системах
Хранение углерода в строительных материалах может спасти планету
Хранение углерода в строительных материалах может спасти планету
В СПбГУ создали эффективный метод очистки биодизеля от глицерина
В СПбГУ создали эффективный метод очистки биодизеля от глицерина
Новый проект ЦЕРН меняет представление о производительности и устойчивости
Новый проект ЦЕРН меняет представление о производительности и устойчивости
Синие кольца на деревьях и кустарниках говорят о холодах в прошлом
Синие кольца на деревьях и кустарниках говорят о холодах в прошлом
Квантовые датчики обеспечат технологическую революцию к 2045 году
Квантовые датчики обеспечат технологическую революцию к 2045 году
Верблюжье молоко назвали отличной альтернативой традиционным молочным продуктам
Верблюжье молоко назвали отличной альтернативой традиционным молочным продуктам
Как НАСА использует технологии искусственного интеллекта на Земле и в космосе
Как НАСА использует технологии искусственного интеллекта на Земле и в космосе
Представлены новейшие разработки в области квантовых вычислений
Представлены новейшие разработки в области квантовых вычислений
Трамп отменяет мандат Байдена на электромобили, меняя политику в отношении EV
Трамп отменяет мандат Байдена на электромобили, меняя политику в отношении EV
Термоядерный прорыв: SMART добыл первую плазму
Термоядерный прорыв: SMART добыл первую плазму
С помощью искусственного фотосинтеза получен биоразлагаемый прекурсор нейлона
С помощью искусственного фотосинтеза получен биоразлагаемый прекурсор нейлона
В ТПУ добавили отходы в пеллеты и снизили выбросы CO2 на 20%
В ТПУ добавили отходы в пеллеты и снизили выбросы CO2 на 20%

Новости компаний, релизы

На острие луча. В Сеченовском Университете состоялось открытие Академии лазерной хирургии
Университет Иннополис открыл колледж для подготовки ИТ-специалистов и робототехников
МФТИ подготовил более 140 специалистов в области синхротронных и нейтронных исследований
В МИФИ разработали критерии для рейтингования вузов в сфере устойчивого развития
«Это не просто студенческий городок». Как создают межвузовский кампус в городе Челябинске