- Дешёвый конкурент Tank 300 стал гораздо... (364)
- «Джеймс Уэбб» пробил туман и обнаружил... (421)
- Ушла эпоха: Skype официально завершил работу... (465)
- Опубликованы результаты первого в истории... (496)
- В этом месяце Трамп заработает миллионы на... (381)
- Легендарная «Чайка» ГАЗ-13 1959 года... (457)
- «У нас появился шанс!»: звезда Kingdom Come:... (389)
- Индийские астрономы нашли новые звёзды и... (462)
- Кроссовер Toyota Corolla Cross подешевел в... (479)
- Chery Tiggo 7L доработают для России:... (531)
- Провал на орбите, но успех на Земле:... (471)
- Toyota Tacoma 2025 едет в Россию: крутой... (466)
- Unitree представила робопса-пожарного с... (479)
- Профессиональная видеокарта Nvidia RTX Pro... (403)
- Кризис европейского автопрома: Volvo уволит... (473)
- Европейские исследователи впервые отследили... (502)
Nvidia сократила час аудио до секунды: открытая модель speech-to-text бросила вызов GPT-4o
Дата: 2025-05-06 07:38
Nvidia продолжает расширять линейку открытых нейросетевых моделей. Её новая разработка — система автоматического распознавания речи (ASR) Parakeet-TDT-0.6B-v2 — способна расшифровывать час аудио всего за секунду, приближаясь по точности к платным аналогам, таким как GPT-4o и ElevenLabs Scribe. Модель доступна под свободной лицензией CC-BY-4.0, что позволяет коммерческое использование без ограничений.
Parakeet-TDT-0.6B-v2, представленная 1 мая, возглавила рейтинг Open ASR Leaderboard от Hugging Face с показателем Word Error Rate (WER) 6,05%. Для сравнения: у GPT-4o-transcribe этот параметр составляет 2,46%, у ElevenLabs Scribe — 3,3%. Модель использует архитектуры FastConformer (кодировщик) и TDT (декодировщик), обрабатывая аудио в 3386 раз быстрее реального времени при пакетном размере 128. Она поддерживает расстановку пунктуации, капитализацию и точные временые метки для каждого слова.

Обучение модели проводилось на массиве Granary, включающем 120 000 часов англоязычных записей. Из них 10 000 часов — это размеченные людьми данные из LibriSpeech и Mozilla Common Voice, а 110 000 — псевдоразметка из открытых источников вроде YouTube-Commons и Librilight. Полный датасет Nvidia планирует опубликовать после конференции Interspeech 2025.
Parakeet-TDT-0.6B-v2 демонстрирует стабильную работу в шумной среде и с телефонными аудиодорожками, хотя при низком соотношении сигнал/шум точность незначительно снижается. Модель оптимизирована для GPU Nvidia (A100, H100, T4, V100), но может работать даже на системах с 2 ГБ оперативной памяти. Для развёртывания доступны Python-скрипты и фреймворк NeMo, позволяющие дообучать систему под специфические задачи.
При создании модели компания заявила о соблюдении принципов ответственного ИИ: обучение велось без использования персональных данных, а документация включает описание методов сбора данных и оценки приватности. Однако явных мер по снижению демографических смещений не предусмотрено.
Разработчики уже называют Parakeet-TDT-0.6B-v2 прорывом для opensource-сообщества. Модель доступна на платформе Hugging Face и через NeMo, что упрощает интеграцию в сервисы транскрибации, голосовых ассистентов или генерации субтитров.
Подробнее на iXBT
Предыдущие новости
Hyundai закупает десятки тысяч роботов-гуманоидов, которые будут собирать машины
Hyundai решила начать использовать человекоподобных роботов Atlas на своем заводе Metaplant America в Джорджии. Эти усовершенствованные двуногие роботы, разработанные компанией Boston Dynamics, предназначены для выполнения задач, традиционно выполняемых людьми. В прошлом месяце южнокорейский автопроизводитель решил закупить десятки тысяч роботов у Boston Dynamics, компании,...
Задумка сработала: Belgee, Solaris, «Москвич», Xcite и другие новые бренды, созданные для России после 2022 году, достигли рекордной доли на нашем рынке
Новые бренды, которые были созданы после 2022 года для российского рынка, укрепляют свои позиции в нашей стране, о чем рассказал директор агентства «Автостат» Сергей Целиков. Доля новых брендов, созданных (или реанимированных) после 2022 года специально для российского рынка в апреле достигла 8,8%. Пока это максимальное значение за все время наблюдения. Сергей Целиков Фото...
Отказ OpenAI от перехода на коммерческие рельсы не снимет претензии Илона Маска
Недавно стало известно, что стартап OpenAI всё же сохранит структуру, подразумевающую главенство некоммерческого совета директоров. Тем не менее, такое решение всё равно не удовлетворит Илона Маска (Elon Musk), который давно настаивает на отказе OpenAI от превращения в коммерческую структуру. Об этом стало известно со слов адвоката американского миллиардера. Источник...
OpenAI признала, что поспешила с выпуском «слишком подхалимского и раздражающего» обновления ChatGPT
Генеральный директор OpenAI Сэм Альтман признал, что последние обновления GPT-4o сделали его «слишком подхалимским и раздражающим», а также объяснил, почему так вышло. В последних обновлениях OpenAI начала использовать данные с кнопок «палец вверх» и «палец вниз» в ChatGPT в качестве «дополнительного сигнала вознаграждения». Однако OpenAI заявила, что это могло «ослабить...