Ученые разработали систему для решения проблемы многорукого бандита

Как игроку максимизировать выигрыш в игровых автоматах? Эта проблема вдохновляет на решение проблемы многорукого бандита — распространенной задачи обучения с подкреплением, в которой агенты делают выбор, чтобы получить вознаграждение.

Недавно международная исследовательская группа под руководством Хироаки Синкавы из Токийского университета разработала расширенную схему фотонного обучения с подкреплением, которая позволяет перейти от статичной задачи о бандите к более сложной динамической среде. Исследование опубликовано 25 июля в журнале Intelligent Computing, a Science Partner Journal.

Успех схемы зависит как от фотонной системы, повышающей качество обучения, так и от поддерживающего алгоритма. Рассматривая «потенциальную фотонную реализацию», авторы разработали модифицированный алгоритм бандитского Q-обучения и подтвердили его эффективность с помощью численного моделирования. Они также протестировали свой алгоритм в параллельной архитектуре, где несколько агентов работают одновременно, и обнаружили, что ключом к ускорению параллельного процесса обучения является предотвращение конфликтующих решений за счет использования квантовой интерференции фотонов.

Хотя использование квантовой интерференции фотонов не является чем-то новым в этой области, авторы считают, что данное исследование «впервые связывает понятие фотонного совместного принятия решений с Q-обучением и применяет его в динамической среде». Задачи обучения с подкреплением обычно ставятся в динамической среде, которая меняется в зависимости от действий агентов и, следовательно, является более сложной, чем статическая среда в задаче о бандите.

В данном исследовании рассматривается сетчатый мир, представляющий собой набор ячеек с различным вознаграждением. Каждый агент может двигаться вверх, вниз, влево или вправо и получать вознаграждение в зависимости от своего текущего перемещения и местоположения. В этой среде следующий ход агента полностью определяется его текущим ходом и местоположением.

При моделировании в данном исследовании используется сетка 5 × 5 ячеек; каждая ячейка называется «состоянием», каждое движение, совершаемое агентом на каждом временном шаге, называется „действием“, а правило, определяющее, как агент выбирает то или иное действие в каждом состоянии, называется „политикой“. Процесс принятия решений строится как сценарий задачи бандита, где каждая пара „состояние — действие“ рассматривается как игровой автомат, а изменения величины Q — значений пар „состояние — действие“ — считаются вознаграждением.

В отличие от базовых алгоритмов Q-обучения, которые обычно сосредоточены на поиске оптимального пути для максимизации вознаграждения, модифицированный бандитский алгоритм Q-обучения нацелен на эффективное и точное обучение оптимальному значению Q для каждой пары «состояние-действие» во всей среде. Поэтому агенту необходимо соблюдать баланс между „эксплуатацией“ знакомых пар с высокими значениями для ускорения обучения и „исследованием“ нечасто встречающихся пар для получения потенциально более высоких значений. В качестве политики используется алгоритм softmax — популярная модель, которая отлично справляется с подобным балансированием.

Первоочередной задачей авторов является разработка фотонной системы, поддерживающей бесконфликтное принятие решений как минимум тремя агентами, в надежде, что ее добавление в предложенную ими схему поможет агентам избежать принятия противоречивых решений. В то же время они планируют разработать алгоритмы, позволяющие агентам действовать непрерывно, и применить свой алгоритм бандитского Q-обучения к более сложным задачам обучения с подкреплением.

21.08.2023


Подписаться в Telegram



Net&IT

Science: Создана революционная технология, которая переписывает ДНК
Science: Создана революционная технология, которая переписывает ДНК

Брайан Хи руководит Лабораторией эволюцио...

Мемристоры сделают компьютеры будущего умными, как мозг
Мемристоры сделают компьютеры будущего умными, как мозг

Новое вещество для изменения работы устро...

В МФТИ создали бота для распознавания нот
В МФТИ создали бота для распознавания нот

Студенты МФТИ создали программу под назва...

Plant Phenomics: Как технологии помогают фермерам сохранить урожай риса
Plant Phenomics: Как технологии помогают фермерам сохранить урожай риса

Благодаря новым технологиям искусственный инте...

Челябинские ученые сделают коммунальные машины автономными
Челябинские ученые сделают коммунальные машины автономными

Программу для управления техникой, котора...

Студенты ТИСБИ разработали проект онлайн-платформы для геймеров
Студенты ТИСБИ разработали проект онлайн-платформы для геймеров

Студенты Университета управления ТИСБИ в ...

Nature: Созданные ИИ тексты будут размечаться водяными знаками
Nature: Созданные ИИ тексты будут размечаться водяными знаками

Исследователи из лондонской лаборатории G...

Российская игра о наполеоновских войнах станет бесплатной
Российская игра о наполеоновских войнах станет бесплатной

У российской аудитории растет интерес к в

В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев»
В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев»

В Новосибирском государственном университете з...

Эксперты МИФИ объяснили решение Microsoft и Google о мирном атоме
Эксперты МИФИ объяснили решение Microsoft и Google о мирном атоме

Технологические корпорации всё чаще обращ...

HB&ET: Пожилые чаще молодых относятся к ИИ как к кому-то живому
HB&ET: Пожилые чаще молодых относятся к ИИ как к кому-то живому

В исследовании Имперского колледжа Лондона люд...

В МФТИ создали ПО для нефтяников и золотодобытчиков
В МФТИ создали ПО для нефтяников и золотодобытчиков

Сотрудники МФТИ предложили цифровое решение, к...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

Свершилось: российские ученые нашли у шерстистого носорога горб
Свершилось: российские ученые нашли у шерстистого носорога горб
В СибГМУ создали препарат для таргетной терапии рака
В СибГМУ создали препарат для таргетной терапии рака
Science: Создана революционная технология, которая переписывает ДНК
Science: Создана революционная технология, которая переписывает ДНК
В БелГУ создали биокомпозицию из гипса, которая защищает растения от плесени
В БелГУ создали биокомпозицию из гипса, которая защищает растения от плесени
В Университете Лобачевского создали метод защиты коров от стресса
В Университете Лобачевского создали метод защиты коров от стресса
Small: В природе все может двигаться синхронно — даже бактерии
Small: В природе все может двигаться синхронно — даже бактерии
Journal of Raptor Research: Грифов-индеек в США нечаянно травят крысиным ядом
Journal of Raptor Research: Грифов-индеек в США нечаянно травят крысиным ядом
Biology Letters: Голодные мучные черви поглощают микропластик и набирают вес
Biology Letters: Голодные мучные черви поглощают микропластик и набирают вес
Journal of Controlled Release: С ПВА лечение рака обязательно склеится
Journal of Controlled Release: С ПВА лечение рака обязательно склеится
Antiquity: Раскопки выявили отказ от института власти в Древнем Ираке
Antiquity: Раскопки выявили отказ от института власти в Древнем Ираке
PLOS Biology: В торфяных болотах найдены грибы, способные остановить туберкулез
PLOS Biology: В торфяных болотах найдены грибы, способные остановить туберкулез
Physical Review Letters: Разгадана тайна механизма выброса рентгеновских лучей
Physical Review Letters: Разгадана тайна механизма выброса рентгеновских лучей
Новая карта Вселенной использует гравитационные волны для поиска черных дыр
Новая карта Вселенной использует гравитационные волны для поиска черных дыр
В СибГМУ снарядили против рака магнитные наночастицы
В СибГМУ снарядили против рака магнитные наночастицы
Environmental Archaeology: Древние агроэкосистемы спасут сельское хозяйство
Environmental Archaeology: Древние агроэкосистемы спасут сельское хозяйство

Новости компаний, релизы

Ученые Межвузовского кампуса выиграли гранты Российского научного фонда
В Архангельске ведется подготовка к строительству кампуса «Арктическая звезда»
Рустам Минниханов высоко оценил партнерство КНИТУ-КАИ и «Росатома»
Синергия Межвузовского кампуса ускорила патентование сырьевой смеси для строительной 3D-печати
Благодаря нацпроекту участники Фестиваля Наука 0+ посетили Центр вирусологии «Вектор»