- TECNO объявляет скидки до конца... (753)
- Скандальная FTX подала в суд на Binance и её... (768)
- Представлен Audi Q5L (787)
- Представлен 1000-сильный Brabus 1000 All... (802)
- Российский Chery Tiggo 9 сделает всё за вас:... (767)
- Представлен другой Dacia Duster: его... (712)
- Рабочие Hyundai целый месяц бастовали и не... (796)
- АвтоВАЗ доработал самую мощную Lada Vesta NG... (758)
- Автомобильное подразделение Continental,... (685)
- Новейший Lincoln Navigator 2025 с... (790)
- Представлен первый гибридный двигатель... (769)
- В России подешевели настольные компьютеры и... (751)
- Доступный флагман с самым ярким экраном,... (749)
- Россию завалят внедорожниками и пикапами... (751)
- Это совершенно новый Hyundai Tucson L 2025:... (744)
- Еще до выхода УАЗ «Патриот» 2025 появятся... (775)
В «VK Видео» улучшили распознавание речи
Дата: 2024-09-12 17:19
Компания VK (бывшая Mail.ru Group) рассказала о вышедшем обновлении интеллектуальных функций платформы «VK Видео». Разработчики внедрили новые алгоритмы искусственного интеллекта для автоматического распознавания речи и синтеза субтитров в роликах, шоу, клипах и другом контенте.
Сгенерировано нейросетью Dall-EТочность анализа и расшифровки выросла на 25%, кроме того, нейросети теперь знают тысячи новых слов, включая мемы, имена собственные, акронимы и профессиональные термины.
В компании рассказали:
Автоматические субтитры генерируются с помощью Ml-моделей, которые создают текст и расставляют знаки препинания, синхронизируют их с видео. Для повышения точности аудиопоток проходит через несколько этапов обработки. Нейросеть отсеивает сторонние шумы, распознает речь и превращает её в текст. После чего подключаются модели пунктуации и денормализации, которые превращают набор из распознанных слов в удобный, читаемый текст. Потом ИИ синхронизирует получившийся текст с аудиодорожкой. Все это позволяет субтитрам быть понятными и удобными как в профессиональных роликах, так и любительских видео.
В ближайшее время нейросети научатся разделять речь разных спикеров на отдельные реплики, что упростит восприятие и чтение субтитров.
Подробнее на iXBT
Предыдущие новости
Tecno представила бюджетный смартфон Pova 6 Neo 5G со 108-Мп камерой, ИИ и чипом Dimensity 6300
Компания Tecno представила доступный по цене смартфон Pova 6 Neo 5G, который может похвастаться 108-мегапиксельной камерой, 5G-связью и функциями на базе искусственного интеллекта. Модель также получила ёмкий аккумулятор, NFC и защиту от пыли и влаги. Источник изображения:...
ViewSonic представила профессиональный 27-дюймовый монитор ColorPro VP2776T-4K с двумя портами Thunderbolt 4
Компания ViewSonic представила 27-дюймовый монитор ColorPro VP2776T-4K, ориентированный на профессионалов. Одной из особенностей новинки является наличие двух разъёмов Thunderbolt 4 (Type-C 40 Гбит/с). Это первый монитор производителя с данным интерфейсом. Источник изображений:...
Asus представила блоки питания ROG Strix Platinum мощностью до 1200 Вт на GaN-транзисторах
Компания Asus представила серию блоков питания ROG Strix Platinum. В неё вошли модели мощностью 850, 1000 и 1200 Вт. Все новинки соответствуют стандарту питания ATX 3.1. Источник изображений:
TP-Link представила футуристический роутер Archer GXE75 в форме призмы — три диапазона, Wi-Fi 6E и оптимизация для игр
Компания TP-Link анонсировала маршрутизатор Archer GXE75, который ориентирован на геймеров. Новинка поддерживает стандарт беспроводной связи Wi-Fi 6E и может работать в трёх частотных диапазона. Роутер получил необычный футуристический дизайн и форму, приближенную к треугольной призме. Источник изображений:...