Началась инновация на рынке голосового распознавания ИИ. В мае NVIDIA представила parakeet-tdt-0.6b-v2, следующую версию открытого голосового распознавания, которая может угрожать Whisper. Эта модель, оптимизированная для работы на GPU, демонстрирует огромный потенциал для коммерческого использования в таких областях, как обработка речи в реальном времени, автоматическое создание протоколов, транскрипция аудио, API для голосового распознавания ИИ и создание контента на основе доходов от рекламы, что сильно сдвигает рынок голосового распознавания ИИ.

Whisper vs Parakeet


Скоростной движок распознавания речи на базе FastConformer + TDT

parakeet-tdt-0.6b-v2 — это модель, распознающая только английский язык, с примерно 600 миллионами параметров. Эта модель состоит из двух технологий:

  • FastConformer энкодер: эффективно анализирует характеристики речи и спроектирован для быстрой работы на графических процессорах NVIDIA. Это позволяет обрабатывать сложные звуки быстрее и точнее.
  • TDT декодер (Transducer-Decoder Transformer): структура с сильными сторонами в преобразовании звука в текст, особенно подходит для обработки длинных аудиофайлов без прерываний.

Благодаря этим двум структурам, модель оптимизирована для быстрого и точного преобразования речи в текст в реальном времени, независимо от длины аудио.


Скорость в тысячи раз быстрее Whisper, оптимизировано для коммерческих услуг

По официальным бенчмаркам:

  • RTFx (фактор реального времени): 3386.02 (при пакетировании 128)
  • WER (уровень ошибки слов): 6.05%

В то время как Whisper-large-v3 имеет средний RTFx от 2 до 5, Parakeet демонстрирует тысячекратное преимущество по скорости.

Личные эксперименты показали еще более впечатляющие результаты. Мы намеренно использовали трек длиной 3 минуты 40 секунд с фоновым шумом вместо чистого аудио для теста. Время, потраченное на транскрипцию, составило всего 13 секунд. В это удивительное время были задействованы следующие элементы:

  • Несмотря на фоновый шум, временные метки были точно отображены
  • Автоматизация пунктуации и регистра работает почти идеально
  • Слова, такие как ‘you’, транскрибировались как ‘ya’, что живописно отражает интонацию и выражение настоящего говорящего

Однако, когда я пробовал тесты с японскими или корейскими аудио, не было никаких выводов. Это явно модель ASR только для английского языка.


Сравнение двигателей распознавания речи ИИ: NVIDIA Parakeet против OpenAI Whisper

Элемент NVIDIA Parakeet OpenAI Whisper
Поддержка языков Только английский Многоязычный (более 98)
Структура модели FastConformer + TDT Сверточная + Трансформер
Скорость (RTFx) Более 3000 2~5
Лицензия Открытый исходный код (в коммерческих целях) Открытый исходный код (в коммерческих целях)
Устойчивость к шуму Сильна даже при аудио с музыкой Относительно слабая
Мультимодальные связи Нет Можно подключить GPT

Whisper имеет преимущество в многоязычной обработке, но Parakeet подавляет в области обработки речи в реальном времени и точности.


Учёт коммерческого использования

  • Нет поддержки для языков, кроме английского (тесты на корейском/японском не дали ответов)
  • Может быть чувствительнее к шуму по сравнению с Whisper
  • Не поддерживает мультимодальный анализ (например, интерпретации значения)

Тем не менее, имеются обнадеживающие факторы:

  • Возможности многоязычной доработки с помощью Common Voice
  • Высокая степень применения для автоматического составления протоколов, судебных записей, транскрипции интервью
  • Легко интегрируется в услуги на основе Whisper как заменяющий бэкэнд
  • Подходит как движок для службы предоставления API для голосового распознавания ИИ

Техническая инновация: структура обработки в реальном времени на основе CTC

Ключом к способности Parakeet к максимальной скорости является технология CTC (Connectionist Temporal Classification). Данные о речи длинные и сложные, и время произнесения каждого слова разное. Однако точно преобразовать это в текст в том порядке, как говорит человек, оказывается не так-то просто.

CTC – это технология, которая автоматически сортирует и сопоставляет огромный объем различных звуковых потоков, извлекая при этом только важную информацию, чтобы установить где и какая буква. Более того, CTC может обрабатывать много фрагментов одновременно, что делает его невероятно быстрым.

Благодаря этому Parakeet может принимать речь в реальном времени и выводить буквы и слова без задержек, сохраняя постоянную скорость независимо от длины аудиофайла. Это похоже на мгновенное распознавание речи с алгоритмом, который намного быстрее, чем обычные стенографисты.


NeMo + Hugging Face: стратегия интегрированной экосистемы ИИ

Модель Parakeet усиливает стратегию AI экосистемы NVIDIA через следующую интеграцию:

  • Полная интеграция с инструментом NeMo
  • Предоставление пайплайнов для непосредственного использования на Hugging Face
  • Оптимизированная под GPU модель, стимулирующая спрос на оборудование

Это более чем просто модель; это стратегическая инициатива, объявляющая себя “самой быстрой работающей открытой моделью ИИ на оборудовании NVIDIA”.


Заключение: Новое оружие для разработчиков AI врачей

Whisper все еще сильна. Но теперь Whisper не является единственным решением.

NVIDIA Parakeet:

  • Открытая модель с возможностью коммерческого использования
  • ИИ движок голосового распознавания, оптимизированный для реального времени
  • Легко интегрируется в различные практические применения, такие как автоматическое создание протоколов, транскрипция аудио контента, создание контента на основе доходов от рекламы
  • Идеален для ведения контента с высоким ключевым словом Google AdSense.

Для всех разработчиков и планировщиков сервисов, работающих над обработкой речи в реальном времени, услугами транскрипции аудио ИИ или системами распознавания речи, оптимизированными под GPU, NVIDIA Parakeet станет стратегической альтернативой, сочетающей скорость, качество и коммерческую ценность.