- Издатель GTA VI неожиданно уволил главу... (6170)
- Ubuntu Linux теперь требует 6 Гбайт... (6452)
- Побледнение кончиков пальцев превратит любую... (5931)
- Apple скупает память даже втридорога, чтобы... (6067)
- Xiaomi рассказала, насколько на самом деле... (6613)
- Xiaomi повысит цены на Redmi K90 Pro Max и... (6469)
- Anysphere выпустил ИИ-помощника по написанию... (8621)
- Смартфон Xiaomi Redmi Note 17 Pro Max может... (6330)
- От ИИ-стартапа Poolside разом отвернулись... (6794)
- Астрономы нашли у миллисекундных пульсаров... (6649)
- ИИ-модели оказались склонны лгать и... (6286)
- Спрос на аренду устаревающих ускорителей... (6903)
- Apple упростила смену региона в аккаунте для... (6445)
- «Яндекс» готовит массовый запуск роботакси и... (6560)
- Apple признала устаревшим ещё один... (6228)
- Мошенники начали маскировать вредоносы под... (5992)
«Жи-ши пиши»: в МГУ и Яндексе создали первый открытый датасет для обучения нейросетей сложным правилам русского языка
Дата: 2025-11-26 18:39
Исследователи МГУ и Яндекса создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, который помогает обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. О разработках Яндекс рассказал в рамках Конгресса молодых ученых.
Сгенерировано нейросетью Midjourney
Датасет и метод обучения выложены в открытый доступ, поэтому исследователи и разработчики могут использовать их, например, для создания образовательных сервисов для школьников и студентов.
В Яндексе рассказали:
Большие языковые модели уже пишут тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил.
Датасет Института ИИ МГУ и Яндекса охватывает 48 правил русского языка, включая те, знание которых проверяют на ЕГЭ и олимпиадах: примеры с неверной пунктуацией в сложноподчинённых предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях. Всего в датасет вошло почти 1000 предложений, каждое из которых связано с конкретной языковой нормой.
Чтобы научить нейросеть исправлять сложные ошибки, не переобучая её на созданном датасете, исследователи предложили новый метод Retrieval-Augmented Generation (с англ. «генерация, усиленная поиском»). Дообученная модель GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. Например, если в предложении пропущена запятая перед «что», модель получит пример с такой же ошибкой, а не с любой пунктуационной. Такой подход помогает избегать лишних исправлений — изменять только часть с неточностью, а не всё предложение.
Яндекс протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro и зарубежных аналогах. Результаты показали, что точность исправлений сложных ошибок выросла на 5–10% по метрике F0,5 — международному стандарту оценки грамматической коррекции. Благодаря новому методу нейросети лучше исправляют ошибки. Так, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite — 71%.
Подробнее на iXBT
Предыдущие новости
OnePlus 15R станет первым глобальным смартфоном на Snapdragon 8 Gen 5. Защита IP69 и 165-герцевый экран в комплекте
OnePlus опубликовала тизер, который указывает на то, что OnePlus 15R станет первой глобальной моделью (то есть на общемировом рынке) на базе однокристальной системы Snapdragon 8 Gen 5. Релиз устройства намечен на 17 декабря. Фото: OnePlus Вообще, сегодня во время официальной премьеры Snapdragon 8 Gen 5 уже объявили первую в мире модель на базе этой однокристальной системы —...
Учёные, возможно, впервые зафиксировали прямой сигнал от тёмной материи в нашей галактике
Человечество, возможно, впервые зафиксировало сигнал непосредственно от тёмной материи. Об этом говорится в новой работе, опубликованной на научной платформе IOPscience. Группа учёных под руководством Томонори Тотани (Tomonori Totani) поделились данными, которые описывают сигнал, который может быть сигналом от тёмной материи. Важно уточнить, что, как и в большинстве подобных...
Цены на память уже выросли на 500%? Так говорит CyberPowerPC, предупреждая о повышении цен на свою продукцию
Розничные цены на модули оперативной памяти за последнее время выросли в разы. Пока что обычно говорят о росте в два-три раза. Однако, возможно, для сборщиков ПК всё ещё хуже. Как минимум CyberPowerPC говорит о росте на 500%. Фото Videocardz Компания опубликовала заявление, предупреждая клиентов о том, что уже с 7 ноября ей придётся повысить цены на свои ПК. Она объясняет...
Двухрежимный монитор Mini-LED с яркостью до 1200 кд/кв.м. Представлен AOC U27G4XM
Компания AOC пополнила свой ассортимент монитором U27G4XM, которая выделяется тем, что основана на панели Mini-LED и при этом является двухрежимным монитором. Фото AOC Модель U27G4XM получила 27-дюймовую панель Mini-LED с 1152 зонами светодиодов. Монитор может похвастаться сертификатом DisplayHDR 1000 и пиковой яркостью в 1200 кд/кв.м. А ещё это двухрежимный монитор....