Не успеешь моргнуть — WhisperX уже расшифровал: тест скорости от Ainergy

22.04.2025194 просмотра

Команда Ainergy, которая разрабатывает платформу для автоматизации бизнес-процессов с помощью ИИ, провела тест скорости работы модели WhisperX. Эта нейросеть быстро переводит речь в текст — она справляется с одной минутой аудио всего за 9,5 секунд.

Чтобы проверить, как платформа справляется с реальной задачей, инженеры дали ей аудиозапись длиной 8 минут. ИИ обработал ее за 1 минуту 12 секунд. Такой результат стал возможным благодаря особому подходу к обработке звука. Вот как это работает:

  1. Разделение аудио — запись разбивается на небольшие фрагменты.
  2. Спектрограмма — звук превращается в «график», где видно, как меняются частота и громкость.
  3. Анализ паттернов — нейросеть ищет знакомые звуки (например, части слов) и интонации.
  4. Сборка текста — система соединяет распознанные элементы в осмысленные предложения, учитывая контекст.

Мы увидели, что WhisperX отлично справляется с обработкой аудио. Такая скорость открывает для наших клиентов новые возможности в самых разных сферах, — говорит Владимир Молодык, CEO Ainergy.

Сейчас команда тестирует новую версию Whisper — она может работать вдвое быстрее, чем текущая.



Поиск на сайте

Новости компаний, релизы

Бактерии против грибов: как наука защищает картофель без химии
Овцы вместо мышей: как ученые нашли новый способ тестировать материалы для зубов
Пробирки, зелень и взрывы: фестиваль для тех, кто любит науку
Ход конем: в Шагонаре прошел первый шахматный турнир для дошколят
Школьник из Сосногорска запустил кружок будущего