- Intel Core Ultra 7 270K Plus, GeForce RTX... (5827)
- За пять лет Arm рассчитывает увеличить... (5818)
- «Скоро появится нечто намного более крутое,... (5273)
- В России стартовали продажи... (6355)
- «Он перестанет выглядеть как робот. Это... (5645)
- Tesla сама сдала назад на перекрёстке: новая... (5947)
- Уже выпущенные смартфоны Huawei получат... (4933)
- M**a нацелилась на капитализацию в $9 трлн и... (6314)
- Для мотивации ключевых руководителей M**a... (6233)
- Huawei Enjoy 90 Pro Max раскупают как... (5941)
- От Dynamic Island пока никуда не деться.... (5022)
- Samsung Galaxy Z Fold8 обновится по типу... (5105)
- Подходит для Android и iPhone. OnePlus... (5808)
- Honor 600, похожий на iPhone 17 Pro, показал... (5810)
- Единственный компактный флагман, экран... (4949)
- Технические характеристики Snapdragon 8... (6512)
Nvidia реализовала расшифровку часа аудио за секунду: открытая модель speech-to-text бросила вызов GPT-4o
Дата: 2025-05-06 07:38
Nvidia продолжает расширять линейку открытых нейросетевых моделей. Её новая разработка — система автоматического распознавания речи (ASR) Parakeet-TDT-0.6B-v2 — способна расшифровывать час аудио всего за секунду, приближаясь по точности к платным аналогам, таким как GPT-4o и ElevenLabs Scribe. Модель доступна под свободной лицензией CC-BY-4.0, что позволяет коммерческое использование без ограничений.
Parakeet-TDT-0.6B-v2, представленная 1 мая, возглавила рейтинг Open ASR Leaderboard от Hugging Face с показателем Word Error Rate (WER) 6,05%. Для сравнения: у GPT-4o-transcribe этот параметр составляет 2,46%, у ElevenLabs Scribe — 3,3%. Модель использует архитектуры FastConformer (кодировщик) и TDT (декодировщик), обрабатывая аудио в 3386 раз быстрее реального времени при пакетном размере 128. Она поддерживает расстановку пунктуации, капитализацию и точные временые метки для каждого слова.
Иллюстрация: VentureBeat / Midjourney Обучение модели проводилось на массиве Granary, включающем 120 000 часов англоязычных записей. Из них 10 000 часов — это размеченные людьми данные из LibriSpeech и Mozilla Common Voice, а 110 000 — псевдоразметка из открытых источников вроде YouTube-Commons и Librilight. Полный датасет Nvidia планирует опубликовать после конференции Interspeech 2025.
Parakeet-TDT-0.6B-v2 демонстрирует стабильную работу в шумной среде и с телефонными аудиодорожками, хотя при низком соотношении сигнал/шум точность незначительно снижается. Модель оптимизирована для GPU Nvidia (A100, H100, T4, V100), но может работать даже на системах с 2 ГБ оперативной памяти. Для развёртывания доступны Python-скрипты и фреймворк NeMo, позволяющие дообучать систему под специфические задачи.
При создании модели компания заявила о соблюдении принципов ответственного ИИ: обучение велось без использования персональных данных, а документация включает описание методов сбора данных и оценки приватности. Однако явных мер по снижению демографических смещений не предусмотрено.
Разработчики уже называют Parakeet-TDT-0.6B-v2 прорывом для opensource-сообщества. Модель доступна на платформе Hugging Face и через NeMo, что упрощает интеграцию в сервисы транскрибации, голосовых ассистентов или генерации субтитров.
Подробнее на iXBT
Предыдущие новости
Belgee, Solaris, «Москвич», Evolute, Knewstar, Xcite и другие новые бренды, созданные для России после 2022 года, достигли рекордной доли на нашем рынке
Новые бренды, которые были созданы после 2022 года для российского рынка, укрепляют свои позиции в нашей стране, о чем рассказал директор агентства «Автостат» Сергей Целиков. Доля новых брендов, созданных (или реанимированных) после 2022 года специально для российского рынка в апреле достигла 8,8%. Пока это максимальное значение за все время наблюдения. Сергей Целиков Фото...
Meizu возвращается: анонсированы Meizu Note 16 и Note 16 Pro, появились первые официальные изображения
Meizu собирается представить новую линейку смартфонов на следующей неделе, согласно информации, которой бренд поделился на китайских социальных платформах. Новые устройства, часть серии Meizu Note 16, дебютируют вместе с обновленной системой Flyme AIOS 2 во время прямой трансляции 13 мая. Фото Meizu Линейка Meizu Note 16 будет включать две модели — стандартную Note 16 и Note...
Продажи отечественных телевизоров выросли в России в 1,6 раза
В I квартале 2025 года продажи телевизоров в России составили 1,8 млн штук на сумму 56,6 млрд руб. при средней стоимости 32,1 тыс. руб., подсчитали в «М.Видео-Эльдорадо». При этом реализация отечественных брендов «Яндекс» и Sber выросла в 1,6 раза. Наибольшей популярностью пользовались телевизоры с поддержкой Smart TV, голосовыми ассистентами и цифровыми платформами, с...
Задумка сработала: Belgee, Solaris, «Москвич», Xcite и другие новые бренды, созданные для России после 2022 года, достигли рекордной доли на нашем рынке
Новые бренды, которые были созданы после 2022 года для российского рынка, укрепляют свои позиции в нашей стране, о чем рассказал директор агентства «Автостат» Сергей Целиков. Доля новых брендов, созданных (или реанимированных) после 2022 года специально для российского рынка в апреле достигла 8,8%. Пока это максимальное значение за все время наблюдения. Сергей Целиков Фото...