- Вышли обзоры MacBook Pro на M4: впечатляющая... (999)
- Представлена беззеркальная камера Nikon Z50... (1050)
- MSI похвалилась разгоном Ryzen 7 9800X3D до... (1062)
- Начались мировые продажи лучшего игрового... (1017)
- 5-метровый седан с пневмоподвеской на замену... (953)
- «Строительство нового мира на Марсе теперь... (1041)
- Не прошло и пяти лет: режиссёрская версия... (1058)
- ИИ-функции в Microsoft Office станут... (999)
- ИИ-функции в Microsoft Office бесплатными... (952)
- Archer Aviation получила очередной крупный... (1102)
- 233 л.с. и 8-ступенчатый «автомат» Aisin. В... (1098)
- Apple обратилась к Foxconn и Lenovo по... (1046)
- KIOST построит подводный ЦОД с десятками... (978)
- Subaru сохранила гарантию на свои машины в... (1012)
- «Я ждал этого 15 лет»: игроков впечатлил... (1050)
- SMIC нарастила выручку и прибыль на волне... (1049)
В «VK Видео» улучшили распознавание речи
Дата: 2024-09-12 17:19
Компания VK (бывшая Mail.ru Group) рассказала о вышедшем обновлении интеллектуальных функций платформы «VK Видео». Разработчики внедрили новые алгоритмы искусственного интеллекта для автоматического распознавания речи и синтеза субтитров в роликах, шоу, клипах и другом контенте.
Сгенерировано нейросетью Dall-EТочность анализа и расшифровки выросла на 25%, кроме того, нейросети теперь знают тысячи новых слов, включая мемы, имена собственные, акронимы и профессиональные термины.
В компании рассказали:
Автоматические субтитры генерируются с помощью Ml-моделей, которые создают текст и расставляют знаки препинания, синхронизируют их с видео. Для повышения точности аудиопоток проходит через несколько этапов обработки. Нейросеть отсеивает сторонние шумы, распознает речь и превращает её в текст. После чего подключаются модели пунктуации и денормализации, которые превращают набор из распознанных слов в удобный, читаемый текст. Потом ИИ синхронизирует получившийся текст с аудиодорожкой. Все это позволяет субтитрам быть понятными и удобными как в профессиональных роликах, так и любительских видео.
В ближайшее время нейросети научатся разделять речь разных спикеров на отдельные реплики, что упростит восприятие и чтение субтитров.
Подробнее на iXBT
Предыдущие новости
Tecno представила бюджетный смартфон Pova 6 Neo 5G со 108-Мп камерой, ИИ и чипом Dimensity 6300
Компания Tecno представила доступный по цене смартфон Pova 6 Neo 5G, который может похвастаться 108-мегапиксельной камерой, 5G-связью и функциями на базе искусственного интеллекта. Модель также получила ёмкий аккумулятор, NFC и защиту от пыли и влаги. Источник изображения:...
ViewSonic представила профессиональный 27-дюймовый монитор ColorPro VP2776T-4K с двумя портами Thunderbolt 4
Компания ViewSonic представила 27-дюймовый монитор ColorPro VP2776T-4K, ориентированный на профессионалов. Одной из особенностей новинки является наличие двух разъёмов Thunderbolt 4 (Type-C 40 Гбит/с). Это первый монитор производителя с данным интерфейсом. Источник изображений:...
Asus представила блоки питания ROG Strix Platinum мощностью до 1200 Вт на GaN-транзисторах
Компания Asus представила серию блоков питания ROG Strix Platinum. В неё вошли модели мощностью 850, 1000 и 1200 Вт. Все новинки соответствуют стандарту питания ATX 3.1. Источник изображений:
TP-Link представила футуристический роутер Archer GXE75 в форме призмы — три диапазона, Wi-Fi 6E и оптимизация для игр
Компания TP-Link анонсировала маршрутизатор Archer GXE75, который ориентирован на геймеров. Новинка поддерживает стандарт беспроводной связи Wi-Fi 6E и может работать в трёх частотных диапазона. Роутер получил необычный футуристический дизайн и форму, приближенную к треугольной призме. Источник изображений:...