- Fable, Forza Horizon 6 и новая игра от... (668)
- Милый, но бесполезный: Samsung заморозила... (599)
- Космические операторы столкнулись с... (603)
- В Gmail появились ИИ-входящие — Gemini... (606)
- Zeekr 8X с ДВС полностью рассекречен:... (627)
- Массовое производство HBM4 отложили до конца... (624)
- Ещё два польских издания подтвердили... (631)
- 60-ваттная зарядка Samsung Galaxy S26 Ultra... (615)
- Для тех, кому ездить много и дешево.... (616)
- Character.AI и Google урегулировали иски о... (618)
- LMArena привлекла $150 млн и стала... (593)
- Caterpillar внедряет ИИ от Nvidia для... (740)
- NASA не исключает экстренное возвращение с... (580)
- Новейшую Lada Vesta Sport 2026 с пакетом... (715)
- Новейшую Lada Vesta Sport 2025 с пакетом... (548)
- Новейшую Lada Vesta Sport 2025 с пакетом... (590)
В «VK Видео» улучшили распознавание речи
Дата: 2024-09-12 17:19
Компания VK (бывшая Mail.ru Group) рассказала о вышедшем обновлении интеллектуальных функций платформы «VK Видео». Разработчики внедрили новые алгоритмы искусственного интеллекта для автоматического распознавания речи и синтеза субтитров в роликах, шоу, клипах и другом контенте.
Сгенерировано нейросетью Dall-E Точность анализа и расшифровки выросла на 25%, кроме того, нейросети теперь знают тысячи новых слов, включая мемы, имена собственные, акронимы и профессиональные термины.
В компании рассказали:
Автоматические субтитры генерируются с помощью Ml-моделей, которые создают текст и расставляют знаки препинания, синхронизируют их с видео. Для повышения точности аудиопоток проходит через несколько этапов обработки. Нейросеть отсеивает сторонние шумы, распознает речь и превращает её в текст. После чего подключаются модели пунктуации и денормализации, которые превращают набор из распознанных слов в удобный, читаемый текст. Потом ИИ синхронизирует получившийся текст с аудиодорожкой. Все это позволяет субтитрам быть понятными и удобными как в профессиональных роликах, так и любительских видео.
В ближайшее время нейросети научатся разделять речь разных спикеров на отдельные реплики, что упростит восприятие и чтение субтитров.
Подробнее на iXBT
Предыдущие новости
Tecno представила бюджетный смартфон Pova 6 Neo 5G со 108-Мп камерой, ИИ и чипом Dimensity 6300
Компания Tecno представила доступный по цене смартфон Pova 6 Neo 5G, который может похвастаться 108-мегапиксельной камерой, 5G-связью и функциями на базе искусственного интеллекта. Модель также получила ёмкий аккумулятор, NFC и защиту от пыли и влаги. Источник изображения:...
ViewSonic представила профессиональный 27-дюймовый монитор ColorPro VP2776T-4K с двумя портами Thunderbolt 4
Компания ViewSonic представила 27-дюймовый монитор ColorPro VP2776T-4K, ориентированный на профессионалов. Одной из особенностей новинки является наличие двух разъёмов Thunderbolt 4 (Type-C 40 Гбит/с). Это первый монитор производителя с данным интерфейсом. Источник изображений:...
Asus представила блоки питания ROG Strix Platinum мощностью до 1200 Вт на GaN-транзисторах
Компания Asus представила серию блоков питания ROG Strix Platinum. В неё вошли модели мощностью 850, 1000 и 1200 Вт. Все новинки соответствуют стандарту питания ATX 3.1. Источник изображений:
TP-Link представила футуристический роутер Archer GXE75 в форме призмы — три диапазона, Wi-Fi 6E и оптимизация для игр
Компания TP-Link анонсировала маршрутизатор Archer GXE75, который ориентирован на геймеров. Новинка поддерживает стандарт беспроводной связи Wi-Fi 6E и может работать в трёх частотных диапазона. Роутер получил необычный футуристический дизайн и форму, приближенную к треугольной призме. Источник изображений:...