Социальный провал: как ИИ путает разговор с переходом улицы
Оказывается, люди пока разбираются в социальных взаимодействиях лучше, чем искусственный интеллект.
Например, беспилотным автомобилям или роботам-помощникам нужно не просто «видеть» окружающий мир, но и понимать, что происходит между людьми: вот двое разговаривают, а вот пешеход вот-вот шагнет на дорогу. Но современные ИИ-модели с этим не справляются.
Ученые из Университета Джонса Хопкинса провели эксперимент: они показывали людям и нейросетям короткие видео с разными сценариями — общение, параллельные действия, одиночные занятия.
Люди легко улавливали контекст и предсказывали поведение, а вот ИИ, даже самые продвинутые, действовали наугад.
- Видеомодели плохо описывали происходящее.
- Модели для изображений не понимали, общаются люди или нет.
- Языковые модели справлялись лучше, но все равно уступали человеку.
ИИ отлично распознает статичные объекты — лица, предметы, — говорит Лейла Исик, руководитель исследования.
Но жизнь не стоит на месте. Чтобы робот или беспилотник работал безопасно, он должен «чувствовать» динамику: куда повернется человек, шутит он или сердится. Сейчас ИИ этого не умеет.
Почему так? Вероятно, дело в архитектуре нейросетей — их «учили» на обработке отдельных кадров, а не живых сцен. Как заметила соавтор исследования Кэти Гарсия, „в социальных взаимодействиях слишком много нюансов, и ИИ их пока не схватывает“.
Этот эксперимент важен не только для разработчиков ИИ. Он показывает:
- Где проваливаются технологии — например, беспилотник может не заметить, что пешеход смотрит на телефон и вот-вот шагнет под колеса.
- Как улучшить обучение нейросетей — возможно, нужно менять архитектуру, добавляя «социальный интеллект».
- Почему человеческий мозг пока вне конкуренции — он обрабатывает динамичные сцены иначе, чем ИИ, и это стоит изучать.
Ранее ученые заметили, что со временем люди могут настолько доверять ИИ, что проворонят момент, когда он начнет манипулировать.