Началась инновация на рынке голосового распознавания ИИ. В мае NVIDIA представила parakeet-tdt-0.6b-v2
, следующую версию открытого голосового распознавания, которая может угрожать Whisper. Эта модель, оптимизированная для работы на GPU, демонстрирует огромный потенциал для коммерческого использования в таких областях, как обработка речи в реальном времени, автоматическое создание протоколов, транскрипция аудио, API для голосового распознавания ИИ и создание контента на основе доходов от рекламы, что сильно сдвигает рынок голосового распознавания ИИ.
Скоростной движок распознавания речи на базе FastConformer + TDT
parakeet-tdt-0.6b-v2
— это модель, распознающая только английский язык, с примерно 600 миллионами параметров. Эта модель состоит из двух технологий:
- FastConformer энкодер: эффективно анализирует характеристики речи и спроектирован для быстрой работы на графических процессорах NVIDIA. Это позволяет обрабатывать сложные звуки быстрее и точнее.
- TDT декодер (Transducer-Decoder Transformer): структура с сильными сторонами в преобразовании звука в текст, особенно подходит для обработки длинных аудиофайлов без прерываний.
Благодаря этим двум структурам, модель оптимизирована для быстрого и точного преобразования речи в текст в реальном времени, независимо от длины аудио.
Скорость в тысячи раз быстрее Whisper, оптимизировано для коммерческих услуг
По официальным бенчмаркам:
- RTFx (фактор реального времени): 3386.02 (при пакетировании 128)
- WER (уровень ошибки слов): 6.05%
В то время как Whisper-large-v3 имеет средний RTFx от 2 до 5, Parakeet демонстрирует тысячекратное преимущество по скорости.
Личные эксперименты показали еще более впечатляющие результаты. Мы намеренно использовали трек длиной 3 минуты 40 секунд с фоновым шумом вместо чистого аудио для теста. Время, потраченное на транскрипцию, составило всего 13 секунд. В это удивительное время были задействованы следующие элементы:
- Несмотря на фоновый шум, временные метки были точно отображены
- Автоматизация пунктуации и регистра работает почти идеально
- Слова, такие как ‘you’, транскрибировались как ‘ya’, что живописно отражает интонацию и выражение настоящего говорящего
Однако, когда я пробовал тесты с японскими или корейскими аудио, не было никаких выводов. Это явно модель ASR только для английского языка.
Сравнение двигателей распознавания речи ИИ: NVIDIA Parakeet против OpenAI Whisper
Элемент | NVIDIA Parakeet | OpenAI Whisper |
---|---|---|
Поддержка языков | Только английский | Многоязычный (более 98) |
Структура модели | FastConformer + TDT | Сверточная + Трансформер |
Скорость (RTFx) | Более 3000 | 2~5 |
Лицензия | Открытый исходный код (в коммерческих целях) | Открытый исходный код (в коммерческих целях) |
Устойчивость к шуму | Сильна даже при аудио с музыкой | Относительно слабая |
Мультимодальные связи | Нет | Можно подключить GPT |
Whisper имеет преимущество в многоязычной обработке, но Parakeet подавляет в области обработки речи в реальном времени и точности.
Учёт коммерческого использования
- Нет поддержки для языков, кроме английского (тесты на корейском/японском не дали ответов)
- Может быть чувствительнее к шуму по сравнению с Whisper
- Не поддерживает мультимодальный анализ (например, интерпретации значения)
Тем не менее, имеются обнадеживающие факторы:
- Возможности многоязычной доработки с помощью Common Voice
- Высокая степень применения для автоматического составления протоколов, судебных записей, транскрипции интервью
- Легко интегрируется в услуги на основе Whisper как заменяющий бэкэнд
- Подходит как движок для службы предоставления API для голосового распознавания ИИ
Техническая инновация: структура обработки в реальном времени на основе CTC
Ключом к способности Parakeet к максимальной скорости является технология CTC (Connectionist Temporal Classification). Данные о речи длинные и сложные, и время произнесения каждого слова разное. Однако точно преобразовать это в текст в том порядке, как говорит человек, оказывается не так-то просто.
CTC – это технология, которая автоматически сортирует и сопоставляет огромный объем различных звуковых потоков, извлекая при этом только важную информацию, чтобы установить где и какая буква. Более того, CTC может обрабатывать много фрагментов одновременно, что делает его невероятно быстрым.
Благодаря этому Parakeet может принимать речь в реальном времени и выводить буквы и слова без задержек, сохраняя постоянную скорость независимо от длины аудиофайла. Это похоже на мгновенное распознавание речи с алгоритмом, который намного быстрее, чем обычные стенографисты.
NeMo + Hugging Face: стратегия интегрированной экосистемы ИИ
Модель Parakeet усиливает стратегию AI экосистемы NVIDIA через следующую интеграцию:
- Полная интеграция с инструментом NeMo
- Предоставление пайплайнов для непосредственного использования на Hugging Face
- Оптимизированная под GPU модель, стимулирующая спрос на оборудование
Это более чем просто модель; это стратегическая инициатива, объявляющая себя “самой быстрой работающей открытой моделью ИИ на оборудовании NVIDIA”.
Заключение: Новое оружие для разработчиков AI врачей
Whisper все еще сильна. Но теперь Whisper не является единственным решением.
NVIDIA Parakeet:
- Открытая модель с возможностью коммерческого использования
- ИИ движок голосового распознавания, оптимизированный для реального времени
- Легко интегрируется в различные практические применения, такие как автоматическое создание протоколов, транскрипция аудио контента, создание контента на основе доходов от рекламы
- Идеален для ведения контента с высоким ключевым словом Google AdSense.
Для всех разработчиков и планировщиков сервисов, работающих над обработкой речи в реальном времени, услугами транскрипции аудио ИИ или системами распознавания речи, оптимизированными под GPU, NVIDIA Parakeet станет стратегической альтернативой, сочетающей скорость, качество и коммерческую ценность.
댓글이 없습니다.