- Вселенная подарила учёным ярчайший быстрый... (17)
- Одним конкурентом для Apple меньше. Google... (49)
- Первые прототипы ускорителей Nvidia Rubin... (77)
- Смартфоны Google Pixel 10 первыми в мире... (70)
- Представлен Lexus RX (58)
- Очень большая батарея в тонком корпусе.... (70)
- Илон Маск основал компанию Macrohard —... (124)
- Google открыла бесплатный доступ к... (109)
- Мощный гибридный внедорожник — за копейки.... (84)
- Aoostar готовит десктопные материнские платы... (128)
- RTX 5090 с собственным корпусом и... (104)
- Секреты коричневых карликов поможет раскрыть... (82)
- В Санкт-Петербурге ограничили мобильный... (71)
- АвтоВАЗ доработал безопасность Lada Niva:... (70)
- Владельцы Subaru и Lexus очень довольны... (163)
- WhatsApp получит поддержку голосовых и... (89)
VK опубликовала нейросеть для обработки разговорного русского языка
Дата: 2025-07-24 11:13
Компания VK (бывшая Mail.ru Group) выложила в открытый доступ модель RuModernBERT для обработки естественного русского языка. Как отмечают разработчики, она понимает длинные тексты целиком, без разбиения на фрагменты и работает локально, без внешних API, что снижает нагрузку на инфраструктуру.

В VK рассказали:
Инженеры могут использовать ее для задач в области обработки текста, в том числе для извлечения информации, анализа тональности, поиска и ранжирования в приложениях и сервисах. Модель может понять сложный или длинный запрос пользователя, например, в поисковой строке и найдет наиболее релевантную информацию, видео, товары или документы.
RuModernBERT была обучена на 2 триллионах токенов данных на русском, английском языках и коде с максимальной длиной контекста до 8,192 токенов. Для всех этапов обучения были использованы разные источники данных, в том числе книги, статьи, посты и комментарии в социальных сетях, что позволяет адаптировать ее для работы с современным текстом и учитывать разговорную речь.
RuModernBERT доступна в нескольких версиях: на 150 миллионов параметров и облегченная модель на 35 миллионов параметров. Также обновлены две дополнительные версии модели: USER и USER2. Они помогают инженерам лучше группировать и находить похожую информацию. В версии USER2 есть специальная технология, которая позволяет сократить объем данных почти без потери точности. Найти все версии модели можно на Hugging Face.
Подробнее на iXBT
Предыдущие новости
Кузова новых российских машин Tenet, которые собирают на бывшем заводе Volkswagen с немецкой системой контроля качества, показали на новых фото
На заводе «АГР Холдинг» в Калуге завершены работы по подготовке линии окраски автомобилей Tenet, адаптированной под особенности конструкции и требования эксплуатации в российских условиях, о чем мы уже сообщали. Теперь же появились новые фото, демонстрирующие окрашенные кузова. Фото «АГР Холдинг»/Максим Кадаков Процесс включает традиционные этапы: обезжиривание,...
На бывшем российском заводе Samsung начали выпускать телевизоры Dreame
Dreame Technology совместно с российской VVP Tech запустила производство телевизоров на бывшем заводе Samsung в Калужской области. Как сообщается, ТВ выпускаются в семи популярных диагоналях. VVP Tech арендует площади бывшего завода Samsung, под ее управлением находятся две производственные площадки в Московской и Калужской областях с общей площадью свыше 250 тыс. м2. Фото:...
Стёртые временем письмена прочитает «Эней» — ИИ от Google DeepMind для восстановления древних текстов и их истории
Команда Google DeepMind представила новую генеративную модель — «Эней» (Aeneas). Это невероятный по возможностям инструмент для историков и археологов. Обученный на сотнях тысяч латинских текстах, «Эней» не просто восстановит утраченные фрагменты обнаруженных надписей — он расскажет их историю и происхождение, а также примерную датировку. Источник изображения:...
Оператор «СберМобайл» запустил «Близкий круг» с бесплатными звонками
Виртуальный мобильный оператор «СберМобайл», за которым стоит Сбербанк, сообщил о запуске новой бесплатной услуги. Сервис под названием «Близкий круг» позволяет объединять в одну группу номера друзей, родственников, коллег — даже если у них разный домашний регион. Сгенерировано нейросетью Midjourney Объединить можно до 5 номеров абонентов «СберМобайла», оплачивать которые...