- Затопят — раз и навсегда. Модули МКС не... (368)
- Таможни Приморья начали работать... (830)
- Технологический сбор на смартфоны составит... (583)
- SSSTC выпустила SSD на 15,36 Тбайт с... (459)
- Насколько россияне лояльны к брендам своих... (523)
- 7000 мА·ч, 80 Вт, ИК-излучатель, 200 Мп и... (872)
- Новые смартфоны Honor GT2 сертифицированы в... (974)
- Сначала эта компания возродила телефоны... (939)
- Экипаж Международной космической станции... (965)
- Lada Iskra представили в Запорожской... (588)
- Аналитики раскрыли продажи Escape from... (478)
- Lada Niva Travel 2026 оказалась дороже, чем... (801)
- С таким смартфоном можно не только в... (553)
- От станций для домов — к зарядкам в кармане.... (906)
- В России вот-вот начнут собирать... (513)
- Control 2 могут показать на The Game Awards... (465)
«Жи-ши пиши»: в МГУ и Яндексе создали первый открытый датасет для обучения нейросетей сложным правилам русского языка
Дата: 2025-11-26 18:39
Исследователи МГУ и Яндекса создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, который помогает обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. О разработках Яндекс рассказал в рамках Конгресса молодых ученых.
Сгенерировано нейросетью Midjourney
Датасет и метод обучения выложены в открытый доступ, поэтому исследователи и разработчики могут использовать их, например, для создания образовательных сервисов для школьников и студентов.
В Яндексе рассказали:
Большие языковые модели уже пишут тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил.
Датасет Института ИИ МГУ и Яндекса охватывает 48 правил русского языка, включая те, знание которых проверяют на ЕГЭ и олимпиадах: примеры с неверной пунктуацией в сложноподчинённых предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях. Всего в датасет вошло почти 1000 предложений, каждое из которых связано с конкретной языковой нормой.
Чтобы научить нейросеть исправлять сложные ошибки, не переобучая её на созданном датасете, исследователи предложили новый метод Retrieval-Augmented Generation (с англ. «генерация, усиленная поиском»). Дообученная модель GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. Например, если в предложении пропущена запятая перед «что», модель получит пример с такой же ошибкой, а не с любой пунктуационной. Такой подход помогает избегать лишних исправлений — изменять только часть с неточностью, а не всё предложение.
Яндекс протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro и зарубежных аналогах. Результаты показали, что точность исправлений сложных ошибок выросла на 5–10% по метрике F0,5 — международному стандарту оценки грамматической коррекции. Благодаря новому методу нейросети лучше исправляют ошибки. Так, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite — 71%.
Подробнее на iXBT
Предыдущие новости
OnePlus 15R станет первым глобальным смартфоном на Snapdragon 8 Gen 5. Защита IP69 и 165-герцевый экран в комплекте
OnePlus опубликовала тизер, который указывает на то, что OnePlus 15R станет первой глобальной моделью (то есть на общемировом рынке) на базе однокристальной системы Snapdragon 8 Gen 5. Релиз устройства намечен на 17 декабря. Фото: OnePlus Вообще, сегодня во время официальной премьеры Snapdragon 8 Gen 5 уже объявили первую в мире модель на базе этой однокристальной системы —...
Учёные, возможно, впервые зафиксировали прямой сигнал от тёмной материи в нашей галактике
Человечество, возможно, впервые зафиксировало сигнал непосредственно от тёмной материи. Об этом говорится в новой работе, опубликованной на научной платформе IOPscience. Группа учёных под руководством Томонори Тотани (Tomonori Totani) поделились данными, которые описывают сигнал, который может быть сигналом от тёмной материи. Важно уточнить, что, как и в большинстве подобных...
Цены на память уже выросли на 500%? Так говорит CyberPowerPC, предупреждая о повышении цен на свою продукцию
Розничные цены на модули оперативной памяти за последнее время выросли в разы. Пока что обычно говорят о росте в два-три раза. Однако, возможно, для сборщиков ПК всё ещё хуже. Как минимум CyberPowerPC говорит о росте на 500%. Фото Videocardz Компания опубликовала заявление, предупреждая клиентов о том, что уже с 7 ноября ей придётся повысить цены на свои ПК. Она объясняет...
Двухрежимный монитор Mini-LED с яркостью до 1200 кд/кв.м. Представлен AOC U27G4XM
Компания AOC пополнила свой ассортимент монитором U27G4XM, которая выделяется тем, что основана на панели Mini-LED и при этом является двухрежимным монитором. Фото AOC Модель U27G4XM получила 27-дюймовую панель Mini-LED с 1152 зонами светодиодов. Монитор может похвастаться сертификатом DisplayHDR 1000 и пиковой яркостью в 1200 кд/кв.м. А ещё это двухрежимный монитор....