ИИ и кривое зеркало: почему цифровые пророки не знают меры

Максим Наговицын20.09.20251377

Представьте себе собеседника, который всегда говорит уверенно, даже когда понятия не имеет о предмете разговора.

ИИ и кривое зеркало: почему цифровые пророки не знают меры
Источник: нейросеть

Искусственный интеллект прочно вошел в нашу жизнь: умные помощники в телефонах, чат-боты в службах поддержки и даже в поисковиках. Но что происходит, когда эти цифровые помощники начинают переоценивать свои силы?

Ученые задали и людям, и четырем большим языковым моделям (БЯМ) один и тот же вопрос: насколько они уверены в своих силах? Им предстояло ответить на вопросы из викторин, предсказать результаты матчей НФЛ или церемонии «Оскар», а также угадать, что нарисовано на картинке в стиле „Крокодила“. И люди, и ИИ часто демонстрировали излишнюю самоуверенность, предполагая, что справятся лучше, чем это было на самом деле. При этом и те и другие отвечали на вопросы с примерно одинаковым успехом.

Но когда участников попросили оценить свои результаты уже после выполнения заданий, картина изменилась. Только люди смогли скорректировать свои ожидания. Исследование на эту тему опубликовали в журнале Memory & Cognition.

Допустим, человек говорил, что ответит верно на 18 вопросов, а в итоге правильно ответил только на 15. После этого его оценка своих результатов была бы примерно такой: «Я думаю, я ответил верно на 16». Он все еще немного переоценивал бы себя, но уже не так сильно, — пояснил Трент Кэш, недавний доктор наук в Университете Карнеги-Меллон.

С ИИ все иначе. Они не стали себя недооценивать. Напротив, часто их уверенность только росла, даже если с заданием они справились из рук вон плохо, — добавил Кэш, ведущий автор исследования.

Мир ИИ меняется ежедневно, и делать общие выводы о его применении — задача непростая.

Сильной стороной этого исследования стал двухлетний сбор данных: модели ChatGPT, Bard/Gemini, Sonnet и Haiku постоянно обновлялись, но их склонность к излишней уверенности сохранялась.

Когда ИИ говорит что-то  сомнительное, пользователи могут не проявить должного скепсиса, потому что машина выдает ответ с непоколебимой уверенностью, даже если для этого нет оснований, — отмечает профессор Дэнни Оппенгеймер, соавтор работы. — Люди эволюционировали и с рождения учились считывать сигналы уверенности друг у друга. Наморщенный лоб или пауза перед ответом говорят нам о сомнениях собеседника. С ИИ у нас нет таких подсказок. Мы не понимаем, знает ли он наверняка то, о чем говорит.

Как задавать вопросы ИИ

Хотя точность ответов ИИ на вопросы викторин или прогнозы результатов футбола не имеет серьезных последствий, исследование указывает на ловушки, которые ждут нас при грамотной интеграции этих технологий в повседневность.

К примеру, BBC выяснила, что больше половины ответов языковых моделей на вопросы о новостях содержали «существенные проблемы»: фактические ошибки, неправильные источники, отсутствующий или вводящий в заблуждение контекст. Другое исследование 2023 года показало, что ИИ „галлюцинировал“, то есть выдавал неверную информацию, в 69–88% случаев при ответах на юридические запросы.

Вопрос о том, понимает ли ИИ, что он говорит, стал как никогда важен. А правда в том, что языковые модели просто не созданы для того, чтобы безошибочно отвечать на все, что им задают.

Спроси я: «Каково население Лондона?», ИИ нашел бы ответ в сети, дал его идеально верно и идеально точно оценил бы свою уверенность, — привел пример Оппенгеймер.

Но задавая вопросы о будущих событиях, например, о победителях «Оскара», или о более субъективных вещах, вроде распознавания нарисованных от руки картинок, исследователи смогли выявить слабость чат-ботов в метапознании — способности осознавать свои собственные мыслительные процессы.

Мы до сих пор не знаем точно, как ИИ оценивает свою уверенность. Но похоже, что он не занимается интроспекцией, по крайней мере, умело, — сказал Оппенгеймер.

Исследование также показало, что у каждой модели есть свои сильные и слабые стороны.

  • В целом, модель Sonnet была менее самоуверенной, чем ее аналоги.
  • ChatGPT-4 показал результаты, схожие с человеческими, в игре в «Крокодил», точно распознав 12,5 рисунков из 20.
  • Gemini справилась с этим катастрофически плохо, угадав в среднем менее одного рисунка (0,93).

При этом Gemini заранее предсказывала, что угадает около 10 рисунков, а после провала retroactively оценила свой результат в 14,40 верных ответов из 20, что ярко демонстрирует полное отсутствие саморефлексии.

Gemini была просто ужасна в «Крокодиле». Но что хуже, она даже не понимала, насколько она плоха. Это как друг, который клянется, что он король бильярда, но при этом никогда не забивает шар, — образно выразился Кэш.

Доверие к искусственному интеллекту

Главный вывод для обычного пользователя — помнить, что ИИ не всегда прав, и при решении важных вопросов стоит прямо спрашивать у него, насколько он уверен в своем ответе. Конечно, исследование говорит, что ИИ не всегда может это точно оценить, но если он все же признает низкую уверенность — это верный знак, что его ответу доверять нельзя.

Исследователи допускают, что на невероятно больших массивах данных чат-боты, возможно, смогут лучше понять свои способности.

Возможно, если бы у него были тысячи или миллионы попыток, он справился бы лучше» — предположил Оппенгеймер.

В конечном счете, выявление таких слабостей, как самоуверенность, поможет разработчикам совершенствовать языковые модели. И по мере развития ИИ, возможно, обретет необходимое метапознание, чтобы учиться на своих ошибках.

Если языковые модели смогут рекурсивно определять, что они ошиблись, это решит множество проблем, — сказал Кэш. — Мне кажется интересным, что ИИ часто не способны учиться на своем собственном поведении. Возможно, в этом есть некий гуманистический посыл. Может быть, есть что-то  уникальное в том, как люди учатся и общаются.

Реальная польза этого исследования носит двойственный характер.

  • Во-первых, практически-прикладная: оно дает четкий, измеримый сигнал и бизнесу, и обычным пользователям. Внедряя ИИ-решения в критически важные области (медицина, юриспруденция, финансы), мы должны проектировать системы не с слепым доверием к ответу модели, а с механизмами валидации и проверки. Модель должна не только давать ответ, но и оценивать степень своей неуверенности, и это должно быть ключевой метрикой наравне с точностью.
  • Во-вторых, фундаментальная: работа подсвечивает ключевое различие между человеческим интеллектом и его искусственной имитацией. Человек обладает метапознанием — способностью «думать о своем мышлении», корректировать его и признавать ошибки. Современные ИИ, генерирующие статистически вероятные последовательности слов, лишены этого. Понимание этой границы — важно для дальнейшего развития ИИ в сторону более надежных и, возможно, действительно разумных систем.

Основное критическое замечание заключается в методологии оценки «уверенности» ИИ. Уверенность языковой модели — это не субъективное чувство, как у человека, а вероятностная оценка, вычисляемая на основе ее внутренних алгоритмов (например, вероятность следующего токена). Исследователи же проецируют на ИИ человеческую категорию „уверенности“, задавая ему вопросы в естественной форме („насколько ты уверен?“). Ответ на такой вопрос — это снова же просто сгенерированный текст, основанный на шаблонах из обучающих данных, где фразы вроде „я уверен“ часто коррелируют с верными ответами. Таким образом, мы измеряем не настоящую „уверенность“ ИИ, а его способность генерировать текстовые паттерны, соответствующие человеческому представлению об уверенности. Более корректным был бы анализ внутренних метрик модели (например, насколько вероятность предсказания совпадает с процентом верных ответов), а не анализ текстовых ответов о уверенности.

Ранее мы разбирались, почему люди готовы доверить алгоритмам даже свою душу.

Подписаться: Телеграм | Дзен | Вконтакте


Net&IT

Поиск на сайте

Лента новостей

Пресс-релизы