- Готовность к работе за 65 секунд и давление... (3355)
- Фейковые кадры работают. Тесты технологий... (3179)
- Франция выкупила разработчика... (4323)
- В России первый пациент получил... (3453)
- Умный дом Xiaomi стал еще умнее:... (3346)
- Российские академики одобрили концепцию... (3081)
- Десять крупнейших бесфабричных разработчиков... (3186)
- Доля местных поставщиков ИИ-чипов на... (3356)
- AMD расскажет о новых достижениях в области... (3105)
- Датамайнер рассказал о «поразительном объёме... (3176)
- 8000 мАч, 100 Вт, IP69, мощная SoC Dimensity... (3326)
- Infinix и Call of Duty: Mobile анонсировали... (3041)
- Космодром Восточный планируется достроить к... (2955)
- «Именно так надо делать сиквелы»:... (3458)
- Perplexity обвинили в передаче данных... (3438)
- От Санкт-Петербурга до Казани: на трассе... (3483)
Meta* и Эдинбургский университет представили метод, который позволяет заглянуть внутрь LLM и исправлять её ошибки рассуждений
Дата: 2025-11-02 12:16
Учёные из Meta* FAIR и Эдинбургского университета создали метод, который позволяет не только определить, насколько корректно рассуждает языковая модель, но и вмешаться в процесс, чтобы исправить ошибку. Подход получил название Circuit-based Reasoning Verification (CRV) и основан на анализе «вычислительных цепей» — подграфов нейронов, которые реализуют скрытые алгоритмы внутри модели.
CRV строит граф вычислений модели и отслеживает, какие связи между признаками активируются при решении задачи. Если структура этих связей указывает на сбой, то метод фиксирует ошибку и может подсказать, где именно произошёл сбой вычислений. Это, по сути, инструмент диагностики, который открывает внутреннюю «механику» модели и позволяет понимать, почему она пришла к неверному выводу.
Чтобы сделать такую «внутреннюю диагностику» возможной, исследователи модифицировали архитектуру LLM — в частности, Llama 3.1 8B Instruct — заменив плотные слои трансформера на обученные транскодеры. Эти компоненты заставляют модель представлять промежуточные вычисления не как непрозрачные числовые векторы, а как набор разреженных признаков. В итоге CRV получает возможность наблюдать, как информация распространяется внутри модели, и фиксировать характерные структурные «отпечатки» правильных и ошибочных шагов рассуждения.
Иллюстрация: Gemini На этом основании создаётся диагностическая модель, которая классифицирует каждый шаг рассуждения как корректный или ошибочный. В тестах на синтетических и реальных задачах (логические, арифметические, GSM8K) CRV показала более высокую точность, чем существующие black-box и gray-box методы, которые ограничиваются внешним поведением модели или простыми пробами активаций.
Ключевой результат — CRV не просто замечает корреляции, а выявляет причины ошибок. В одном из примеров система зафиксировала преждевременную активацию «умножающего» признака, из-за чего модель ошиблась в порядке операций. После редактирования этого признака модель пересчитала выражение правильно.
Анализ также показал, что характер ошибок зависит от типа задачи: сбои в логических рассуждениях и арифметике проявляются в разных паттернах вычислений. Это значит, что диагностический классификатор нужно обучать отдельно для каждого класса задач, хотя сами транскодеры остаются общими.
Авторы считают CRV шагом к созданию «учения об интерпретируемом ИИ», где поведение моделей можно не только наблюдать, но и понимать причинно — как разработчики анализируют трассировку ошибок в обычных программах. Потенциально на основе CRV могут появиться «отладчики для ИИ», позволяющие разработчикам выявлять первопричину сбоя и вносить точечные исправления без полного переобучения модели.
Если такие инструменты станут практикой, то языковые модели смогут действовать более надёжно и даже самостоятельно корректировать свои рассуждения при возникновении логических ошибок — почти как человек.
* Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена
Подробнее на iXBT
Предыдущие новости
NVIDIA может инвестировать до $1 млрд в ИИ-стартап Poolside, чтобы тот мог купить побольше её же ускорителей
Компания NVIDIA, по информации Bloomberg, может принять участие в крупном раунде финансирования стартапа Poolside, специализирующегося на ИИ-технологиях. Предполагается, что в рамках этой программы компания привлечет до $2 млрд, увеличив свою оценку в четыре раза. Фирма Poolside, базирующаяся в Париже, была основана в начале 2023 года бывшим техническим директором GitHub...
Intel интересуется покупкой разработчика ИИ-ускорителей SambaNova Systems, в которого инвестировал сам Лип-Бу Тан
Корпорация Intel, по сообщению Bloomberg, ведёт предварительные переговоры о покупке стартапа SambaNova Systems, специализирующегося на разработке ИИ-ускорителей. Сделка теоретически позволит Intel укрепить конкурентное положение по отношению к NVIDIA. SambaNova основана в 2017 году профессорами Стэнфордского университета (Stanford University) в США. Компания занимается...
Adobe представила ИИ-инструмент для редактирования видео по одному кадру
Компания Adobe показала публике несколько экспериментальных инструментов на базе искусственного интеллекта, работа над которыми ещё продолжается и которые предназначены для интуитивно понятного редактирования изображений, видео и аудио. Один из таких инструментов разрабатывается в рамках проекта Project Frame Forward и позволяет в процессе редактирования видео добавлять и...
Ракета Falcon 9, которая была в космосе уже десятки раз, запустила 100-ю миссию Starlink в 2025 году
Компания SpaceX запустила сотую в этом году миссию Starlink. Всего в этом году на орбиту выведено более 2550 спутников. Ракета-носитель Falcon 9 с 28 спутниками широкополосной связи Starlink компании SpaceX стартовала с Космической военной базы Ванденберг в Калифорнии. Starlink, интернет-сеть SpaceX на низкой околоземной орбите, на сегодняшний день является крупнейшей...