- Античит BattlEye сломал GTA Online на Steam... (272)
- Менее четверти белорусских Geely и BelGee... (316)
- HTC представила автономную VR-гарнитуру Vive... (254)
- Долгосрочная аренда авто «Яндекс Драйва»... (311)
- Новейший Cadillac Escalade ESV 2024 появился... (282)
- В столицу привезли новый Toyota... (266)
- Apple рассказала, что значительно повысила... (2983)
- Новые языки в Apple Intelligence будут... (4865)
- Ресурс более 100 тыс. часов, повышенный КПД... (4221)
- Lada Vesta стала ещё более российской:... (3798)
- После «неудачной попытки рейдерского... (302)
- Процессоры Apple A16 начали выпускать в США... (284)
- Зонд NASA «Юнона» обнаружил гигантский... (277)
- Аферисты на КамАЗе: 1500 машин продали... (315)
- У Qualcomm не получилось отменить... (254)
- Logitech выпустила серию низкопрофильных... (268)
В «VK Видео» улучшили распознавание речи
Дата: 2024-09-12 17:19
Компания VK (бывшая Mail.ru Group) рассказала о вышедшем обновлении интеллектуальных функций платформы «VK Видео». Разработчики внедрили новые алгоритмы искусственного интеллекта для автоматического распознавания речи и синтеза субтитров в роликах, шоу, клипах и другом контенте.
Сгенерировано нейросетью Dall-EТочность анализа и расшифровки выросла на 25%, кроме того, нейросети теперь знают тысячи новых слов, включая мемы, имена собственные, акронимы и профессиональные термины.
В компании рассказали:
Автоматические субтитры генерируются с помощью Ml-моделей, которые создают текст и расставляют знаки препинания, синхронизируют их с видео. Для повышения точности аудиопоток проходит через несколько этапов обработки. Нейросеть отсеивает сторонние шумы, распознает речь и превращает её в текст. После чего подключаются модели пунктуации и денормализации, которые превращают набор из распознанных слов в удобный, читаемый текст. Потом ИИ синхронизирует получившийся текст с аудиодорожкой. Все это позволяет субтитрам быть понятными и удобными как в профессиональных роликах, так и любительских видео.
В ближайшее время нейросети научатся разделять речь разных спикеров на отдельные реплики, что упростит восприятие и чтение субтитров.
Подробнее на iXBT
Предыдущие новости
Tecno представила бюджетный смартфон Pova 6 Neo 5G со 108-Мп камерой, ИИ и чипом Dimensity 6300
Компания Tecno представила доступный по цене смартфон Pova 6 Neo 5G, который может похвастаться 108-мегапиксельной камерой, 5G-связью и функциями на базе искусственного интеллекта. Модель также получила ёмкий аккумулятор, NFC и защиту от пыли и влаги. Источник изображения:...
ViewSonic представила профессиональный 27-дюймовый монитор ColorPro VP2776T-4K с двумя портами Thunderbolt 4
Компания ViewSonic представила 27-дюймовый монитор ColorPro VP2776T-4K, ориентированный на профессионалов. Одной из особенностей новинки является наличие двух разъёмов Thunderbolt 4 (Type-C 40 Гбит/с). Это первый монитор производителя с данным интерфейсом. Источник изображений:...
Asus представила блоки питания ROG Strix Platinum мощностью до 1200 Вт на GaN-транзисторах
Компания Asus представила серию блоков питания ROG Strix Platinum. В неё вошли модели мощностью 850, 1000 и 1200 Вт. Все новинки соответствуют стандарту питания ATX 3.1. Источник изображений:
TP-Link представила футуристический роутер Archer GXE75 в форме призмы — три диапазона, Wi-Fi 6E и оптимизация для игр
Компания TP-Link анонсировала маршрутизатор Archer GXE75, который ориентирован на геймеров. Новинка поддерживает стандарт беспроводной связи Wi-Fi 6E и может работать в трёх частотных диапазона. Роутер получил необычный футуристический дизайн и форму, приближенную к треугольной призме. Источник изображений:...