- Опубликованы результаты первого в истории... (382)
- В этом месяце Трамп заработает миллионы на... (335)
- Легендарная «Чайка» ГАЗ-13 1959 года... (339)
- «У нас появился шанс!»: звезда Kingdom Come:... (327)
- Индийские астрономы нашли новые звёзды и... (342)
- Кроссовер Toyota Corolla Cross подешевел в... (370)
- Chery Tiggo 7L доработают для России:... (398)
- Провал на орбите, но успех на Земле:... (354)
- Toyota Tacoma 2025 едет в Россию: крутой... (356)
- Unitree представила робопса-пожарного с... (364)
- Профессиональная видеокарта Nvidia RTX Pro... (348)
- Кризис европейского автопрома: Volvo уволит... (361)
- Европейские исследователи впервые отследили... (385)
- Представлена Lada Granta Life: названы... (389)
- Представлена Lada Granta Life: больше... (355)
- Гигантский не только объем памяти, но и... (379)
Nvidia реализовала расшифровку часа аудио за секунду: открытая модель speech-to-text бросила вызов GPT-4o
Дата: сегодня 07:38
Nvidia продолжает расширять линейку открытых нейросетевых моделей. Её новая разработка — система автоматического распознавания речи (ASR) Parakeet-TDT-0.6B-v2 — способна расшифровывать час аудио всего за секунду, приближаясь по точности к платным аналогам, таким как GPT-4o и ElevenLabs Scribe. Модель доступна под свободной лицензией CC-BY-4.0, что позволяет коммерческое использование без ограничений.
Parakeet-TDT-0.6B-v2, представленная 1 мая, возглавила рейтинг Open ASR Leaderboard от Hugging Face с показателем Word Error Rate (WER) 6,05%. Для сравнения: у GPT-4o-transcribe этот параметр составляет 2,46%, у ElevenLabs Scribe — 3,3%. Модель использует архитектуры FastConformer (кодировщик) и TDT (декодировщик), обрабатывая аудио в 3386 раз быстрее реального времени при пакетном размере 128. Она поддерживает расстановку пунктуации, капитализацию и точные временые метки для каждого слова.

Обучение модели проводилось на массиве Granary, включающем 120 000 часов англоязычных записей. Из них 10 000 часов — это размеченные людьми данные из LibriSpeech и Mozilla Common Voice, а 110 000 — псевдоразметка из открытых источников вроде YouTube-Commons и Librilight. Полный датасет Nvidia планирует опубликовать после конференции Interspeech 2025.
Parakeet-TDT-0.6B-v2 демонстрирует стабильную работу в шумной среде и с телефонными аудиодорожками, хотя при низком соотношении сигнал/шум точность незначительно снижается. Модель оптимизирована для GPU Nvidia (A100, H100, T4, V100), но может работать даже на системах с 2 ГБ оперативной памяти. Для развёртывания доступны Python-скрипты и фреймворк NeMo, позволяющие дообучать систему под специфические задачи.
При создании модели компания заявила о соблюдении принципов ответственного ИИ: обучение велось без использования персональных данных, а документация включает описание методов сбора данных и оценки приватности. Однако явных мер по снижению демографических смещений не предусмотрено.
Разработчики уже называют Parakeet-TDT-0.6B-v2 прорывом для opensource-сообщества. Модель доступна на платформе Hugging Face и через NeMo, что упрощает интеграцию в сервисы транскрибации, голосовых ассистентов или генерации субтитров.
Подробнее на iXBT
Предыдущие новости
Belgee, Solaris, «Москвич», Evolute, Knewstar, Xcite и другие новые бренды, созданные для России после 2022 года, достигли рекордной доли на нашем рынке
Новые бренды, которые были созданы после 2022 года для российского рынка, укрепляют свои позиции в нашей стране, о чем рассказал директор агентства «Автостат» Сергей Целиков. Доля новых брендов, созданных (или реанимированных) после 2022 года специально для российского рынка в апреле достигла 8,8%. Пока это максимальное значение за все время наблюдения. Сергей Целиков Фото...
Meizu возвращается: анонсированы Meizu Note 16 и Note 16 Pro, появились первые официальные изображения
Meizu собирается представить новую линейку смартфонов на следующей неделе, согласно информации, которой бренд поделился на китайских социальных платформах. Новые устройства, часть серии Meizu Note 16, дебютируют вместе с обновленной системой Flyme AIOS 2 во время прямой трансляции 13 мая. Фото Meizu Линейка Meizu Note 16 будет включать две модели — стандартную Note 16 и Note...
Продажи отечественных телевизоров выросли в России в 1,6 раза
В I квартале 2025 года продажи телевизоров в России составили 1,8 млн штук на сумму 56,6 млрд руб. при средней стоимости 32,1 тыс. руб., подсчитали в «М.Видео-Эльдорадо». При этом реализация отечественных брендов «Яндекс» и Sber выросла в 1,6 раза. Наибольшей популярностью пользовались телевизоры с поддержкой Smart TV, голосовыми ассистентами и цифровыми платформами, с...
Задумка сработала: Belgee, Solaris, «Москвич», Xcite и другие новые бренды, созданные для России после 2022 года, достигли рекордной доли на нашем рынке
Новые бренды, которые были созданы после 2022 года для российского рынка, укрепляют свои позиции в нашей стране, о чем рассказал директор агентства «Автостат» Сергей Целиков. Доля новых брендов, созданных (или реанимированных) после 2022 года специально для российского рынка в апреле достигла 8,8%. Пока это максимальное значение за все время наблюдения. Сергей Целиков Фото...