Новый алгоритм анализирует эмоции по голосу в реальном времени
Сбербанк и ВШЭ представили систему, которая анализирует не только лицо, но и то, что за ним скрыто.

Ученые из Центра практического Искусственного Интеллекта Сбербанка и Высшей школы экономики создали систему, которая распознает эмоции не только по лицу, но и по голосу. Раньше алгоритмы анализировали мимику отдельно, теперь же модель учитывает и речь, и интонацию, и даже то, как эмоции меняются со временем.
Новая технология объединяет два подхода: временные сверточные сети (TCN) и трансформеры. Это позволяет точнее улавливать динамику — например, когда человек сначала злится, а потом резко успокаивается.
Точность выросла на 10% по сравнению с системами, которые работают только с изображением.
Исследование опубликовано в сборнике конференции AIST.
Где это пригодится:
- В кол-центрах — чтобы сразу понимать, доволен клиент или раздражен.
- В маркетинге — для анализа реакции на рекламу.
- В безопасности — чтобы замечать агрессию или панику в толпе.
Андрей Савченко, научный директор Центра:
Мы научили систему работать в реальных условиях — при плохом освещении, шуме, даже если лицо частично скрыто. Это практическая модель, которую можно внедрять уже сейчас. Например, в телемедицине или виртуальных ассистентах.
Сейчас разработчики улучшают алгоритм, чтобы он адаптировался к еще более сложным сценариям.
Главное преимущество — мультимодальность. Человек редко выражает эмоции только лицом или только голосом. Обычно все работает вместе: жест, интонация, пауза в речи. Чем ближе алгоритм к такому анализу, тем меньше ошибок.
Это особенно важно там, где эмоции влияют на решения:
- В переговорах — если система поймет, что клиент колеблется, менеджер сможет склонить его к сделке.
- В образовании — платформа подстроится под настроение ученика, снизив или увеличив нагрузку.
- В психиатрии — поможет отслеживать состояние пациентов дистанционно.
Технология снижает зависимость от идеальных условий. Камеры и микрофоны есть везде, но они часто дают шумные данные. Если система работает с этим — она дешевле в масштабировании.
Однако сохраняется этическая проблема. Чем точнее ИИ распознает эмоции, тем проще манипулировать людьми. Например, кол-центр может использовать данные, чтобы давить на слабые места клиента. Или работодатель — анализировать вовлеченность сотрудников без их согласия.
Ранее ученые заметили, что женщины лучше мужчин разбираются в эмоциях.