- Игры для ПК избавятся от компиляции... (4894)
- Магнитная «турбина» для смартфона, которая... (4514)
- Chuwi снова поймали на подмене процессоров:... (4931)
- Солнце могло мигрировать из внутренней части... (4762)
- Учёные открыли соединение... (5039)
- Xiaomi запустила в Китае новую стиральную... (5281)
- Apple отпразднует 50-летие мероприятиями «по... (4450)
- Группа ИИ-агентов взломала базу данных... (4583)
- Nvidia нашла оригинальный способ выбивать... (5324)
- Huawei Enjoy 90 Pro Max с батареей 8500 мА·ч... (5282)
- Межзвездная комета 3I/ATLAS оказалась... (4853)
- Сэм Альтман признал, что ИИ разрушает баланс... (4235)
- Телескоп LOFAR обнаружил 13,7 млн ранее... (4611)
- Adobe заплатит $150 млн по иску о платной... (4811)
- Amazon начнёт запускать ИИ-модели на... (4118)
- Silicon Motion представила контроллер SM8008... (4679)
Meta* и Эдинбургский университет представили метод, который позволяет заглянуть внутрь LLM и исправлять её ошибки рассуждений
Дата: 2025-11-02 12:16
Учёные из Meta* FAIR и Эдинбургского университета создали метод, который позволяет не только определить, насколько корректно рассуждает языковая модель, но и вмешаться в процесс, чтобы исправить ошибку. Подход получил название Circuit-based Reasoning Verification (CRV) и основан на анализе «вычислительных цепей» — подграфов нейронов, которые реализуют скрытые алгоритмы внутри модели.
CRV строит граф вычислений модели и отслеживает, какие связи между признаками активируются при решении задачи. Если структура этих связей указывает на сбой, то метод фиксирует ошибку и может подсказать, где именно произошёл сбой вычислений. Это, по сути, инструмент диагностики, который открывает внутреннюю «механику» модели и позволяет понимать, почему она пришла к неверному выводу.
Чтобы сделать такую «внутреннюю диагностику» возможной, исследователи модифицировали архитектуру LLM — в частности, Llama 3.1 8B Instruct — заменив плотные слои трансформера на обученные транскодеры. Эти компоненты заставляют модель представлять промежуточные вычисления не как непрозрачные числовые векторы, а как набор разреженных признаков. В итоге CRV получает возможность наблюдать, как информация распространяется внутри модели, и фиксировать характерные структурные «отпечатки» правильных и ошибочных шагов рассуждения.
Иллюстрация: Gemini На этом основании создаётся диагностическая модель, которая классифицирует каждый шаг рассуждения как корректный или ошибочный. В тестах на синтетических и реальных задачах (логические, арифметические, GSM8K) CRV показала более высокую точность, чем существующие black-box и gray-box методы, которые ограничиваются внешним поведением модели или простыми пробами активаций.
Ключевой результат — CRV не просто замечает корреляции, а выявляет причины ошибок. В одном из примеров система зафиксировала преждевременную активацию «умножающего» признака, из-за чего модель ошиблась в порядке операций. После редактирования этого признака модель пересчитала выражение правильно.
Анализ также показал, что характер ошибок зависит от типа задачи: сбои в логических рассуждениях и арифметике проявляются в разных паттернах вычислений. Это значит, что диагностический классификатор нужно обучать отдельно для каждого класса задач, хотя сами транскодеры остаются общими.
Авторы считают CRV шагом к созданию «учения об интерпретируемом ИИ», где поведение моделей можно не только наблюдать, но и понимать причинно — как разработчики анализируют трассировку ошибок в обычных программах. Потенциально на основе CRV могут появиться «отладчики для ИИ», позволяющие разработчикам выявлять первопричину сбоя и вносить точечные исправления без полного переобучения модели.
Если такие инструменты станут практикой, то языковые модели смогут действовать более надёжно и даже самостоятельно корректировать свои рассуждения при возникновении логических ошибок — почти как человек.
* Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена
Подробнее на iXBT
Предыдущие новости
NVIDIA может инвестировать до $1 млрд в ИИ-стартап Poolside, чтобы тот мог купить побольше её же ускорителей
Компания NVIDIA, по информации Bloomberg, может принять участие в крупном раунде финансирования стартапа Poolside, специализирующегося на ИИ-технологиях. Предполагается, что в рамках этой программы компания привлечет до $2 млрд, увеличив свою оценку в четыре раза. Фирма Poolside, базирующаяся в Париже, была основана в начале 2023 года бывшим техническим директором GitHub...
Intel интересуется покупкой разработчика ИИ-ускорителей SambaNova Systems, в которого инвестировал сам Лип-Бу Тан
Корпорация Intel, по сообщению Bloomberg, ведёт предварительные переговоры о покупке стартапа SambaNova Systems, специализирующегося на разработке ИИ-ускорителей. Сделка теоретически позволит Intel укрепить конкурентное положение по отношению к NVIDIA. SambaNova основана в 2017 году профессорами Стэнфордского университета (Stanford University) в США. Компания занимается...
Adobe представила ИИ-инструмент для редактирования видео по одному кадру
Компания Adobe показала публике несколько экспериментальных инструментов на базе искусственного интеллекта, работа над которыми ещё продолжается и которые предназначены для интуитивно понятного редактирования изображений, видео и аудио. Один из таких инструментов разрабатывается в рамках проекта Project Frame Forward и позволяет в процессе редактирования видео добавлять и...
Ракета Falcon 9, которая была в космосе уже десятки раз, запустила 100-ю миссию Starlink в 2025 году
Компания SpaceX запустила сотую в этом году миссию Starlink. Всего в этом году на орбиту выведено более 2550 спутников. Ракета-носитель Falcon 9 с 28 спутниками широкополосной связи Starlink компании SpaceX стартовала с Космической военной базы Ванденберг в Калифорнии. Starlink, интернет-сеть SpaceX на низкой околоземной орбите, на сегодняшний день является крупнейшей...