ИИ наводит порядок: как хаотичное любопытство превратили в систему

Максим Наговицын23.07.2025676

Представьте, что ИИ — это ребенок, который учится, тыкаясь во все подряд, но некоторые уроки слишком опасны для проб и ошибок.

ИИ наводит порядок: как хаотичное любопытство превратили в систему
Источник: нейросеть

Обучение ИИ исследованию окружающего мира похоже на тренировку робота в гигантском лабиринте с сокровищами: он пробует разные пути, но многие оказываются тупиками. В реальных задачах — от управления роботами до сложных игр — полезные подсказки редки, и ИИ тратит время впустую.

Ученые из Нанкинского университета и UC Berkeley предложили необычный метод — кластеризованное обучение с подкреплением (CRL). Вместо хаотичных действий или погони за случайными успехами, ИИ группирует похожие ситуации в «кластеры». Он получает награду не только за новые действия, но и за развитие прошлых достижений.

Результаты опубликованы в издании Frontiers of Computer Science.

Мы научили ИИ учиться почти как человек: сочетать любопытство с анализом удачных решений, — поясняет руководитель проекта, профессор У-Цзюнь Ли.

Как это работает

  • Система объединяет похожие состояния в кластеры (например, через алгоритм K-means).
  • Для каждого кластера оценивается: новизна  (как редко его изучали) и качество  (средний результат).
  • ИИ поощряют за изучение неизведанного, но с учетом потенциальной выгоды.

В результате CRL превзошел стандартные методы в тестах — от управления роботами до игр Atari. Метод легко встраивается в существующие системы и полезен там, где ошибки дорого обходятся: в беспилотниках, энергосистемах, логистике.

CRL сокращает «детский возраст» ИИ — время, когда он совершает глупые ошибки. Это критично для:

  • Медицины: роботы-хирурги быстрее научатся избегать рисковых действий.
  • Промышленности: дроны на складах станут эффективнее без месяцев тренировок.
  • Геймдизайна: NPC в играх обретут осмысленное поведение, а не заученные скрипты.

Метод требует предварительной настройки кластеризации — например, выбора числа групп (K) в K-means. Неверный выбор исказит логику исследования. Кроме того, в динамичных средах (например, фондовый рынок) кластеры могут устаревать слишком быстро.

Ранее ученые заявили, что ИИ становится носителем всех пороков человечества.

Подписаться: Телеграм | Дзен | Вконтакте


Net&IT

Поиск на сайте

Лента новостей

Пресс-релизы