- «Кладбище» Microsoft в скором времени... (488)
- Белорусы не жалуют ни Lada, ни российские... (530)
- Что будет, если сравнить iGPU Arc B390 с... (518)
- Nintendo анонсировала первую в 2026 году... (682)
- В будущих процессорах AMD Ryzen на ядрах Zen... (575)
- Samsung опубликовала видеоролики,... (808)
- В «Авито Работе» прокачали ИИ-создание... (662)
- Даже без апскейлеров iGPU Intel Core Ultra 9... (781)
- Реалистичный симулятор управления портом... (719)
- AMD подтвердила, что Steam Machine должна... (576)
- ИИ-боты стали новым типом посетителей... (687)
- 24-ядерный Intel, 32 ГБ ОЗУ и корпус объёмом... (685)
- Exynos 2600 громит Snapdragon 8 Elite Gen 5... (724)
- Американец купил новую GeForce RTX 5080 за... (663)
- iGPU Intel Arc B390 способен обойти консоль... (768)
- Сразу две камеры по 200 Мп, Snapdragon 8... (757)
Nvidia реализовала расшифровку часа аудио за секунду: открытая модель speech-to-text бросила вызов GPT-4o
Дата: 2025-05-06 07:38
Nvidia продолжает расширять линейку открытых нейросетевых моделей. Её новая разработка — система автоматического распознавания речи (ASR) Parakeet-TDT-0.6B-v2 — способна расшифровывать час аудио всего за секунду, приближаясь по точности к платным аналогам, таким как GPT-4o и ElevenLabs Scribe. Модель доступна под свободной лицензией CC-BY-4.0, что позволяет коммерческое использование без ограничений.
Parakeet-TDT-0.6B-v2, представленная 1 мая, возглавила рейтинг Open ASR Leaderboard от Hugging Face с показателем Word Error Rate (WER) 6,05%. Для сравнения: у GPT-4o-transcribe этот параметр составляет 2,46%, у ElevenLabs Scribe — 3,3%. Модель использует архитектуры FastConformer (кодировщик) и TDT (декодировщик), обрабатывая аудио в 3386 раз быстрее реального времени при пакетном размере 128. Она поддерживает расстановку пунктуации, капитализацию и точные временые метки для каждого слова.
Иллюстрация: VentureBeat / Midjourney Обучение модели проводилось на массиве Granary, включающем 120 000 часов англоязычных записей. Из них 10 000 часов — это размеченные людьми данные из LibriSpeech и Mozilla Common Voice, а 110 000 — псевдоразметка из открытых источников вроде YouTube-Commons и Librilight. Полный датасет Nvidia планирует опубликовать после конференции Interspeech 2025.
Parakeet-TDT-0.6B-v2 демонстрирует стабильную работу в шумной среде и с телефонными аудиодорожками, хотя при низком соотношении сигнал/шум точность незначительно снижается. Модель оптимизирована для GPU Nvidia (A100, H100, T4, V100), но может работать даже на системах с 2 ГБ оперативной памяти. Для развёртывания доступны Python-скрипты и фреймворк NeMo, позволяющие дообучать систему под специфические задачи.
При создании модели компания заявила о соблюдении принципов ответственного ИИ: обучение велось без использования персональных данных, а документация включает описание методов сбора данных и оценки приватности. Однако явных мер по снижению демографических смещений не предусмотрено.
Разработчики уже называют Parakeet-TDT-0.6B-v2 прорывом для opensource-сообщества. Модель доступна на платформе Hugging Face и через NeMo, что упрощает интеграцию в сервисы транскрибации, голосовых ассистентов или генерации субтитров.
Подробнее на iXBT
Предыдущие новости
Belgee, Solaris, «Москвич», Evolute, Knewstar, Xcite и другие новые бренды, созданные для России после 2022 года, достигли рекордной доли на нашем рынке
Новые бренды, которые были созданы после 2022 года для российского рынка, укрепляют свои позиции в нашей стране, о чем рассказал директор агентства «Автостат» Сергей Целиков. Доля новых брендов, созданных (или реанимированных) после 2022 года специально для российского рынка в апреле достигла 8,8%. Пока это максимальное значение за все время наблюдения. Сергей Целиков Фото...
Meizu возвращается: анонсированы Meizu Note 16 и Note 16 Pro, появились первые официальные изображения
Meizu собирается представить новую линейку смартфонов на следующей неделе, согласно информации, которой бренд поделился на китайских социальных платформах. Новые устройства, часть серии Meizu Note 16, дебютируют вместе с обновленной системой Flyme AIOS 2 во время прямой трансляции 13 мая. Фото Meizu Линейка Meizu Note 16 будет включать две модели — стандартную Note 16 и Note...
Продажи отечественных телевизоров выросли в России в 1,6 раза
В I квартале 2025 года продажи телевизоров в России составили 1,8 млн штук на сумму 56,6 млрд руб. при средней стоимости 32,1 тыс. руб., подсчитали в «М.Видео-Эльдорадо». При этом реализация отечественных брендов «Яндекс» и Sber выросла в 1,6 раза. Наибольшей популярностью пользовались телевизоры с поддержкой Smart TV, голосовыми ассистентами и цифровыми платформами, с...
Задумка сработала: Belgee, Solaris, «Москвич», Xcite и другие новые бренды, созданные для России после 2022 года, достигли рекордной доли на нашем рынке
Новые бренды, которые были созданы после 2022 года для российского рынка, укрепляют свои позиции в нашей стране, о чем рассказал директор агентства «Автостат» Сергей Целиков. Доля новых брендов, созданных (или реанимированных) после 2022 года специально для российского рынка в апреле достигла 8,8%. Пока это максимальное значение за все время наблюдения. Сергей Целиков Фото...