Как игроку максимизировать выигрыш в игровых автоматах? Эта проблема вдохновляет на решение проблемы многорукого бандита — распространенной задачи обучения с подкреплением, в которой агенты делают выбор, чтобы получить вознаграждение. Недавно международная исследовательская группа под руководством Хироаки Синкавы из Токийского университета разработала расширенную схему фотонного обучения с подкреплением, которая позволяет перейти от статичной задачи о бандите к более сложной динамической среде. Исследование опубликовано 25 июля в журнале Intelligent Computing, a Science Partner Journal. Успех схемы зависит как от фотонной системы, повышающей качество обучения, так и от поддерживающего алгоритма. Рассматривая «потенциальную фотонную реализацию», авторы разработали модифицированный алгоритм бандитского Q-обучения и подтвердили его эффективность с помощью численного моделирования. Они также протестировали свой алгоритм в параллельной архитектуре, где несколько агентов работают одновременно, и обнаружили, что ключом к ускорению параллельного процесса обучения является предотвращение конфликтующих решений за счет использования квантовой интерференции фотонов. Хотя использование квантовой интерференции фотонов не является В данном исследовании рассматривается сетчатый мир, представляющий собой набор ячеек с различным вознаграждением. Каждый агент может двигаться вверх, вниз, влево или вправо и получать вознаграждение в зависимости от своего текущего перемещения и местоположения. В этой среде следующий ход агента полностью определяется его текущим ходом и местоположением. При моделировании в данном исследовании используется сетка 5 × 5 ячеек; каждая ячейка называется «состоянием», каждое движение, совершаемое агентом на каждом временном шаге, называется „действием“, а правило, определяющее, как агент выбирает то или иное действие в каждом состоянии, называется „политикой“. Процесс принятия решений строится как сценарий задачи бандита, где каждая пара „состояние — действие“ рассматривается как игровой автомат, а изменения величины Q — значений пар „состояние — действие“ — считаются вознаграждением. В отличие от базовых алгоритмов Q-обучения, которые обычно сосредоточены на поиске оптимального пути для максимизации вознаграждения, модифицированный бандитский алгоритм Q-обучения нацелен на эффективное и точное обучение оптимальному значению Q для каждой пары «состояние-действие» во всей среде. Поэтому агенту необходимо соблюдать баланс между „эксплуатацией“ знакомых пар с высокими значениями для ускорения обучения и „исследованием“ нечасто встречающихся пар для получения потенциально более высоких значений. В качестве политики используется алгоритм softmax — популярная модель, которая отлично справляется с подобным балансированием. Первоочередной задачей авторов является разработка фотонной системы, поддерживающей бесконфликтное принятие решений как минимум тремя агентами, в надежде, что ее добавление в предложенную ими схему поможет агентам избежать принятия противоречивых решений. В то же время они планируют разработать алгоритмы, позволяющие агентам действовать непрерывно, и применить свой алгоритм бандитского Q-обучения к более сложным задачам обучения с подкреплением. 21.08.2023 |
Net&IT
Science: Создана революционная технология, которая переписывает ДНК | |
Брайан Хи руководит Лабораторией эволюцио... |
Мемристоры сделают компьютеры будущего умными, как мозг | |
Новое вещество для изменения работы устро... |
В Японии предложили способ усовершенствовать дополненную реальность на смартфоне | |
Приложения дополненной реальности, которые раб... |
В МФТИ создали бота для распознавания нот | |
Студенты МФТИ создали программу под назва... |
В Московском Политехе создали алгоритм для прогнозирования пешеходного трафика | |
Студент первого курса Московского Политеха Арт... |
Ученые рассказали об уязвимостях в системе безопасности медицинских ИТ | |
Сотрудники кафедры ИБ Московского Политех... |
EgoTouch управляет VR-миром с ладони — речь идет о новом уровне взаимодействия | |
В обычной жизни мы не хотим постоянн... |
Plant Phenomics: Как технологии помогают фермерам сохранить урожай риса | |
Благодаря новым технологиям искусственный инте... |
Челябинские ученые сделают коммунальные машины автономными | |
Программу для управления техникой, котора... |
Школьники создали для музея бота-проводника по коммуналкам и книгам Булгакова | |
Сегодня музейные чат-боты могут гораздо больше... |
Студенты ТИСБИ разработали проект онлайн-платформы для геймеров | |
Студенты Университета управления ТИСБИ в ... |
Nature: Созданные ИИ тексты будут размечаться водяными знаками | |
Исследователи из лондонской лаборатории G... |
Российская игра о наполеоновских войнах станет бесплатной | |
У российской аудитории растет интерес к в |
Ученые МГУ с коллегами предложили новый подход для создания квантового интернета | |
Создать устройство для гибридных квантовы... |
В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев» | |
В Новосибирском государственном университете з... |
Российские ученые создали расчетные модули для системы инженерного анализа | |
Ученые из нескольких научных организаций ... |
Эксперты МИФИ объяснили решение Microsoft и Google о мирном атоме | |
Технологические корпорации всё чаще обращ... |
По событиям Смутного времени создадут игру — интерактивную новеллу | |
Компания Сайберия Нова и создатели игры С... |
JCM: ИИ быстрее человека определяет устойчивость бактерий к антибиотикам | |
Искусственный интеллект для поиска бактер... |
HB&ET: Пожилые чаще молодых относятся к ИИ как к кому-то живому | |
В исследовании Имперского колледжа Лондона люд... |
В России создана нейросеть для оценки отторжения пересаженной почки | |
ИИ-модель, которая с помощью компьютерног... |
UIST: Приложение для смартфона делает захват движений тела в реальном времени | |
Инженеры Северо-Западного университета создали... |
PNAS Nexus: Разработана система мониторинга усталости рабочих на производстве | |
Новая разработка, система датчиков и маши... |
В СПбГУ с помощью ИИ создали систему распознавания нейротропных препаратов | |
Новую систему для скрининга нейротропных ... |
NatPhys: Поиск ошибок в процессоре поможет создать надежный квантовый компьютер | |
Чтобы достичь выдающихся результатов, квантовы... |
Новые ИИ-модели нагрева плазмы исправляют вычисления термоядерных исследований | |
Новые модели искусственного интеллекта для&nbs... |
ACMTAC: Новые приложения позволят слепым людям ориентироваться в помещениях | |
Два новых приложения помогут слепым людям орие... |
Nature Communications: Ученые придумали способ ускорить разработку лекарств | |
Способ улучшить квантовые компьютеры для ... |
PRR: Новые оптические устройства смогут преодолеть ограничения хранения данных | |
Поскольку наш цифровой мир создаёт о... |
В МФТИ создали ПО для нефтяников и золотодобытчиков | |
Сотрудники МФТИ предложили цифровое решение, к... |