- Компания Arm впервые создала готовый чип.... (4797)
- Глава Intel Лип-Бу Тан выступит на выставке... (4665)
- В США выпустили первое в мире пиво с добытым... (4689)
- Razer представила беспроводную мышь Viper V4... (5242)
- MacBook Neo всего с 8 ГБ ОЗУ запустил... (5264)
- Sony закроет новую студию режиссёра Call of... (4592)
- Следующая Payday оказалась эксклюзивом VR —... (4019)
- В России впервые за два года оштрафовали... (4447)
- Разработчик Dead by Daylight продолжает... (4440)
- Представлен смартфон OnePlus 15T с чипом... (4678)
- Российские космонавты вручную пристыковали... (4392)
- Epic Games уволит тысячу сотрудников, потому... (4411)
- Broadcom пожаловалась на ограничения... (4168)
- Nvidia выпустила драйвер GeForce с... (4387)
- Samsung догоняет TSMC: выход годных 2-нм... (5095)
- Дефицит памяти убил портативную приставку... (3433)
Meta* и Эдинбургский университет представили метод, который позволяет заглянуть внутрь LLM и исправлять её ошибки рассуждений
Дата: 2025-11-02 12:16
Учёные из Meta* FAIR и Эдинбургского университета создали метод, который позволяет не только определить, насколько корректно рассуждает языковая модель, но и вмешаться в процесс, чтобы исправить ошибку. Подход получил название Circuit-based Reasoning Verification (CRV) и основан на анализе «вычислительных цепей» — подграфов нейронов, которые реализуют скрытые алгоритмы внутри модели.
CRV строит граф вычислений модели и отслеживает, какие связи между признаками активируются при решении задачи. Если структура этих связей указывает на сбой, то метод фиксирует ошибку и может подсказать, где именно произошёл сбой вычислений. Это, по сути, инструмент диагностики, который открывает внутреннюю «механику» модели и позволяет понимать, почему она пришла к неверному выводу.
Чтобы сделать такую «внутреннюю диагностику» возможной, исследователи модифицировали архитектуру LLM — в частности, Llama 3.1 8B Instruct — заменив плотные слои трансформера на обученные транскодеры. Эти компоненты заставляют модель представлять промежуточные вычисления не как непрозрачные числовые векторы, а как набор разреженных признаков. В итоге CRV получает возможность наблюдать, как информация распространяется внутри модели, и фиксировать характерные структурные «отпечатки» правильных и ошибочных шагов рассуждения.
Иллюстрация: Gemini На этом основании создаётся диагностическая модель, которая классифицирует каждый шаг рассуждения как корректный или ошибочный. В тестах на синтетических и реальных задачах (логические, арифметические, GSM8K) CRV показала более высокую точность, чем существующие black-box и gray-box методы, которые ограничиваются внешним поведением модели или простыми пробами активаций.
Ключевой результат — CRV не просто замечает корреляции, а выявляет причины ошибок. В одном из примеров система зафиксировала преждевременную активацию «умножающего» признака, из-за чего модель ошиблась в порядке операций. После редактирования этого признака модель пересчитала выражение правильно.
Анализ также показал, что характер ошибок зависит от типа задачи: сбои в логических рассуждениях и арифметике проявляются в разных паттернах вычислений. Это значит, что диагностический классификатор нужно обучать отдельно для каждого класса задач, хотя сами транскодеры остаются общими.
Авторы считают CRV шагом к созданию «учения об интерпретируемом ИИ», где поведение моделей можно не только наблюдать, но и понимать причинно — как разработчики анализируют трассировку ошибок в обычных программах. Потенциально на основе CRV могут появиться «отладчики для ИИ», позволяющие разработчикам выявлять первопричину сбоя и вносить точечные исправления без полного переобучения модели.
Если такие инструменты станут практикой, то языковые модели смогут действовать более надёжно и даже самостоятельно корректировать свои рассуждения при возникновении логических ошибок — почти как человек.
* Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена
Подробнее на iXBT
Предыдущие новости
NVIDIA может инвестировать до $1 млрд в ИИ-стартап Poolside, чтобы тот мог купить побольше её же ускорителей
Компания NVIDIA, по информации Bloomberg, может принять участие в крупном раунде финансирования стартапа Poolside, специализирующегося на ИИ-технологиях. Предполагается, что в рамках этой программы компания привлечет до $2 млрд, увеличив свою оценку в четыре раза. Фирма Poolside, базирующаяся в Париже, была основана в начале 2023 года бывшим техническим директором GitHub...
Intel интересуется покупкой разработчика ИИ-ускорителей SambaNova Systems, в которого инвестировал сам Лип-Бу Тан
Корпорация Intel, по сообщению Bloomberg, ведёт предварительные переговоры о покупке стартапа SambaNova Systems, специализирующегося на разработке ИИ-ускорителей. Сделка теоретически позволит Intel укрепить конкурентное положение по отношению к NVIDIA. SambaNova основана в 2017 году профессорами Стэнфордского университета (Stanford University) в США. Компания занимается...
Adobe представила ИИ-инструмент для редактирования видео по одному кадру
Компания Adobe показала публике несколько экспериментальных инструментов на базе искусственного интеллекта, работа над которыми ещё продолжается и которые предназначены для интуитивно понятного редактирования изображений, видео и аудио. Один из таких инструментов разрабатывается в рамках проекта Project Frame Forward и позволяет в процессе редактирования видео добавлять и...
Ракета Falcon 9, которая была в космосе уже десятки раз, запустила 100-ю миссию Starlink в 2025 году
Компания SpaceX запустила сотую в этом году миссию Starlink. Всего в этом году на орбиту выведено более 2550 спутников. Ракета-носитель Falcon 9 с 28 спутниками широкополосной связи Starlink компании SpaceX стартовала с Космической военной базы Ванденберг в Калифорнии. Starlink, интернет-сеть SpaceX на низкой околоземной орбите, на сегодняшний день является крупнейшей...