- Новая статья: PowerWash Simulator 2 — опять... (89)
- NASA возвращается в миссию марсохода... (112)
- Team Cherry подтвердила работу над DLC для... (238)
- Американцы стали уходить из X, отдавая... (151)
- Марсоход Perseverance услышал возможные... (207)
- Раскладушка с нетипичным экраном 16:10... (140)
- Быстрый 400-герцевый монитор всего за 260... (135)
- SpaceX готовится к повторной попытке запуска... (217)
- Google внезапно самоустранилась из... (202)
- Erying выпустила настольные материнские... (367)
- Хитрый трюк помог станции NASA развенчать... (379)
- Амбициозный авиасимулятор «Корея. Серия... (367)
- OpenAI урезала лимиты на генерацию контента... (631)
- По слухам, Apple возобновит сотрудничество с... (364)
- Перенос GTA VI не помешает Forza Horizon 6 —... (206)
- Гуманоидный робот AgiBot A2 без остановки... (291)
«Жи-ши пиши»: в МГУ и Яндексе создали первый открытый датасет для обучения нейросетей сложным правилам русского языка
Дата: 2025-11-26 18:39
Исследователи МГУ и Яндекса создали LORuGEC — первый открытый набор данных с примерами ошибок по сложным правилам русского языка. Они также разработали метод, который помогает обучить ИИ исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. О разработках Яндекс рассказал в рамках Конгресса молодых ученых.
Сгенерировано нейросетью Midjourney
Датасет и метод обучения выложены в открытый доступ, поэтому исследователи и разработчики могут использовать их, например, для создания образовательных сервисов для школьников и студентов.
В Яндексе рассказали:
Большие языковые модели уже пишут тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Это связано с тем, что в открытых наборах данных, на которых обучают нейросети, почти нет сложных правил.
Датасет Института ИИ МГУ и Яндекса охватывает 48 правил русского языка, включая те, знание которых проверяют на ЕГЭ и олимпиадах: примеры с неверной пунктуацией в сложноподчинённых предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях. Всего в датасет вошло почти 1000 предложений, каждое из которых связано с конкретной языковой нормой.
Чтобы научить нейросеть исправлять сложные ошибки, не переобучая её на созданном датасете, исследователи предложили новый метод Retrieval-Augmented Generation (с англ. «генерация, усиленная поиском»). Дообученная модель GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. Например, если в предложении пропущена запятая перед «что», модель получит пример с такой же ошибкой, а не с любой пунктуационной. Такой подход помогает избегать лишних исправлений — изменять только часть с неточностью, а не всё предложение.
Яндекс протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro и зарубежных аналогах. Результаты показали, что точность исправлений сложных ошибок выросла на 5–10% по метрике F0,5 — международному стандарту оценки грамматической коррекции. Благодаря новому методу нейросети лучше исправляют ошибки. Так, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite — 71%.
Подробнее на iXBT
Предыдущие новости
OnePlus 15R станет первым глобальным смартфоном на Snapdragon 8 Gen 5. Защита IP69 и 165-герцевый экран в комплекте
OnePlus опубликовала тизер, который указывает на то, что OnePlus 15R станет первой глобальной моделью (то есть на общемировом рынке) на базе однокристальной системы Snapdragon 8 Gen 5. Релиз устройства намечен на 17 декабря. Фото: OnePlus Вообще, сегодня во время официальной премьеры Snapdragon 8 Gen 5 уже объявили первую в мире модель на базе этой однокристальной системы —...
Учёные, возможно, впервые зафиксировали прямой сигнал от тёмной материи в нашей галактике
Человечество, возможно, впервые зафиксировало сигнал непосредственно от тёмной материи. Об этом говорится в новой работе, опубликованной на научной платформе IOPscience. Группа учёных под руководством Томонори Тотани (Tomonori Totani) поделились данными, которые описывают сигнал, который может быть сигналом от тёмной материи. Важно уточнить, что, как и в большинстве подобных...
Цены на память уже выросли на 500%? Так говорит CyberPowerPC, предупреждая о повышении цен на свою продукцию
Розничные цены на модули оперативной памяти за последнее время выросли в разы. Пока что обычно говорят о росте в два-три раза. Однако, возможно, для сборщиков ПК всё ещё хуже. Как минимум CyberPowerPC говорит о росте на 500%. Фото Videocardz Компания опубликовала заявление, предупреждая клиентов о том, что уже с 7 ноября ей придётся повысить цены на свои ПК. Она объясняет...
Двухрежимный монитор Mini-LED с яркостью до 1200 кд/кв.м. Представлен AOC U27G4XM
Компания AOC пополнила свой ассортимент монитором U27G4XM, которая выделяется тем, что основана на панели Mini-LED и при этом является двухрежимным монитором. Фото AOC Модель U27G4XM получила 27-дюймовую панель Mini-LED с 1152 зонами светодиодов. Монитор может похвастаться сертификатом DisplayHDR 1000 и пиковой яркостью в 1200 кд/кв.м. А ещё это двухрежимный монитор....