Почему ИИ не чувствует мир, как человек
Ученые объяснили, почему искусственный интеллект пока не поймет, что значит — пахнет весной.

Искусственный интеллект вроде ChatGPT, даже при всей своей натренированности и вычислительной мощи, не способен воспринимать цветок так, как это делает человек. К такому выводу пришли ученые в новом исследовании.
Дело в том, что большие языковые модели (LLM), на которых работают ИИ-ассистенты, опираются в основном на текст, иногда — на изображения.
LLM не может вдохнуть аромат розы, потрогать лепестки ромашки или прогуляться по полю диких цветов, — говорит Цихуи Сюй, ведущий автор исследования и научный сотрудник Университета Огайо. — Без этих ощущений и телесного опыта ИИ не способен по-настоящему понять, что такое цветок во всей его полноте. То же самое касается и других человеческих понятий.
Исследование опубликовано в журнале Nature Human Behaviour.
Сюй отмечает, что эти выводы важны для понимания взаимодействия людей и ИИ.
Если ИИ воспринимает мир принципиально иначе, чем человек, это повлияет на то, как он с нами общается.
Ученые сравнили, как люди и LLM представляют себе значения 4422 слов — от «цветка» и „копыта“ до „юмора“ и „качелей“. Они оценивали сходство между человеческим восприятием и двумя передовыми моделями — OpenAI (GPT-3.5 и GPT-4) и Google (PaLM и Gemini).
Тестирование проводилось по двум параметрам.
- Глазго-нормы — оценивали слова по девяти критериям, включая эмоциональную насыщенность, конкретность и возможность визуализации. Например, насколько цветок вызывает эмоции и насколько легко его представить.
- Ланкастер-нормы — проверяли, как слова связаны с органами чувств (осязание, слух, обоняние, зрение) и действиями (что человек делает ртом, руками, телом).
Цель — выяснить, насколько совпадают оценки людей и ИИ. В одном анализе сравнивали, как те и другие ранжируют понятия. Например, согласны ли ИИ и люди, что одни концепции вызывают больше эмоций, чем другие?
Во втором анализе смотрели, как люди и ИИ определяют связи между разными характеристиками слов. Например, «паста» и „розы“ могут получить высокие баллы за запах, но для людей паста ближе к лапше, чем к цветам — не только из-за аромата, но и из-за внешнего вида и вкуса.
Что выяснилось
- LLM отлично справлялись с абстрактными понятиями, не связанными с телесным опытом.
- Но когда дело касалось слов, связанных с ощущениями (вкус, запах, прикосновение) или действиями (движения рук, тела), ИИ не мог повторить человеческое восприятие.
Аромат цветка, шелковистость лепестков под пальцами, радость от их вида — для человека все это сливается в единый образ, — пишут исследователи.
Проблема в том, что LLM зависят от текста, а язык не передает всю глубину человеческого опыта. Даже поглощая гигантские объемы данных — в миллионы раз больше, чем человек за всю жизнь, — ИИ все равно не схватывает некоторые вещи так, как люди.
Человеческий опыт гораздо богаче, чем можно выразить словами.
Но Сюй подчеркивает: LLM развиваются. Модели, обученные на тексте и изображениях, уже лучше справляются с визуальными концепциями. А если в будущем их дополнят сенсорами и робототехникой, они смогут взаимодействовать с миром по-настоящему.
Это исследование важно по трем причинам:
- Показывает границы ИИ — помогает понять, почему нейросети иногда «недопонимают» очевидные для человека вещи.
- Определяет направление развития — если ИИ не хватает сенсорного опыта, значит, будущие модели нужно обучать не только на текстах, но и на данных от датчиков, камер, даже роботов.
- Предупреждает риски — если ИИ воспринимает мир иначе, это может привести к ошибкам в медицине, образовании, customer-сервисе.
Отметим, что исследование опирается на сравнение с «усредненным» человеческим восприятием (нормы Глазго и Ланкастера). Однако люди — не шаблоны: для кого-то цветок ассоциируется с аллергией, для другого — с похоронами. ИИ мог бы превзойти человека в объективности, если бы не его зависимость от стереотипов в тренировочных данных.
Ранее ученые нашли способ заставить ИИ сомневаться в неверных ответах.