- Новый процессор Alibaba XuanTie C950: шаг к... (6201)
- Древний ужас пробуждается в геймплейном... (5812)
- CERN успешно провёл первую в мире... (5956)
- Google выпустила ИИ-модель Lyria 3 Pro для... (5943)
- MaxSun представила свои варианты Arc Pro B70... (5459)
- Google поведёт квантовые компьютеры по... (5794)
- Надёжный инсайдер раскрыл главную игру... (5759)
- ASRock представила юбилейную матплату Z890... (5399)
- Samsung Galaxy A57 разобрали сразу после... (5439)
- Разработчики Forza Horizon 6 «выкатили»... (5666)
- 8 ТБ и интерфейс SATA — за 1300 евро.... (6053)
- Марадона против Тора: сумасшедший трейлер... (6023)
- Dell представила обновлённые ноутбуки серии... (5243)
- Intel выпустила Xeon 600 с 12–86 ядрами для... (5815)
- Новый флагман Samsung получит экран с... (5734)
- Samsung представила смартфоны Galaxy A37 и... (5745)
Nvidia реализовала расшифровку часа аудио за секунду: открытая модель speech-to-text бросила вызов GPT-4o
Дата: 2025-05-06 07:38
Nvidia продолжает расширять линейку открытых нейросетевых моделей. Её новая разработка — система автоматического распознавания речи (ASR) Parakeet-TDT-0.6B-v2 — способна расшифровывать час аудио всего за секунду, приближаясь по точности к платным аналогам, таким как GPT-4o и ElevenLabs Scribe. Модель доступна под свободной лицензией CC-BY-4.0, что позволяет коммерческое использование без ограничений.
Parakeet-TDT-0.6B-v2, представленная 1 мая, возглавила рейтинг Open ASR Leaderboard от Hugging Face с показателем Word Error Rate (WER) 6,05%. Для сравнения: у GPT-4o-transcribe этот параметр составляет 2,46%, у ElevenLabs Scribe — 3,3%. Модель использует архитектуры FastConformer (кодировщик) и TDT (декодировщик), обрабатывая аудио в 3386 раз быстрее реального времени при пакетном размере 128. Она поддерживает расстановку пунктуации, капитализацию и точные временые метки для каждого слова.
Иллюстрация: VentureBeat / Midjourney Обучение модели проводилось на массиве Granary, включающем 120 000 часов англоязычных записей. Из них 10 000 часов — это размеченные людьми данные из LibriSpeech и Mozilla Common Voice, а 110 000 — псевдоразметка из открытых источников вроде YouTube-Commons и Librilight. Полный датасет Nvidia планирует опубликовать после конференции Interspeech 2025.
Parakeet-TDT-0.6B-v2 демонстрирует стабильную работу в шумной среде и с телефонными аудиодорожками, хотя при низком соотношении сигнал/шум точность незначительно снижается. Модель оптимизирована для GPU Nvidia (A100, H100, T4, V100), но может работать даже на системах с 2 ГБ оперативной памяти. Для развёртывания доступны Python-скрипты и фреймворк NeMo, позволяющие дообучать систему под специфические задачи.
При создании модели компания заявила о соблюдении принципов ответственного ИИ: обучение велось без использования персональных данных, а документация включает описание методов сбора данных и оценки приватности. Однако явных мер по снижению демографических смещений не предусмотрено.
Разработчики уже называют Parakeet-TDT-0.6B-v2 прорывом для opensource-сообщества. Модель доступна на платформе Hugging Face и через NeMo, что упрощает интеграцию в сервисы транскрибации, голосовых ассистентов или генерации субтитров.
Подробнее на iXBT
Предыдущие новости
Belgee, Solaris, «Москвич», Evolute, Knewstar, Xcite и другие новые бренды, созданные для России после 2022 года, достигли рекордной доли на нашем рынке
Новые бренды, которые были созданы после 2022 года для российского рынка, укрепляют свои позиции в нашей стране, о чем рассказал директор агентства «Автостат» Сергей Целиков. Доля новых брендов, созданных (или реанимированных) после 2022 года специально для российского рынка в апреле достигла 8,8%. Пока это максимальное значение за все время наблюдения. Сергей Целиков Фото...
Meizu возвращается: анонсированы Meizu Note 16 и Note 16 Pro, появились первые официальные изображения
Meizu собирается представить новую линейку смартфонов на следующей неделе, согласно информации, которой бренд поделился на китайских социальных платформах. Новые устройства, часть серии Meizu Note 16, дебютируют вместе с обновленной системой Flyme AIOS 2 во время прямой трансляции 13 мая. Фото Meizu Линейка Meizu Note 16 будет включать две модели — стандартную Note 16 и Note...
Продажи отечественных телевизоров выросли в России в 1,6 раза
В I квартале 2025 года продажи телевизоров в России составили 1,8 млн штук на сумму 56,6 млрд руб. при средней стоимости 32,1 тыс. руб., подсчитали в «М.Видео-Эльдорадо». При этом реализация отечественных брендов «Яндекс» и Sber выросла в 1,6 раза. Наибольшей популярностью пользовались телевизоры с поддержкой Smart TV, голосовыми ассистентами и цифровыми платформами, с...
Задумка сработала: Belgee, Solaris, «Москвич», Xcite и другие новые бренды, созданные для России после 2022 года, достигли рекордной доли на нашем рынке
Новые бренды, которые были созданы после 2022 года для российского рынка, укрепляют свои позиции в нашей стране, о чем рассказал директор агентства «Автостат» Сергей Целиков. Доля новых брендов, созданных (или реанимированных) после 2022 года специально для российского рынка в апреле достигла 8,8%. Пока это максимальное значение за все время наблюдения. Сергей Целиков Фото...