- Не только Google Pixel смогут обмениваться... (248)
- Новый трейлер раскрыл дату выхода... (234)
- Топливо с «запахом жареной картошки»: в... (315)
- ASRock начала проверки после новых поломок... (362)
- MSI усилила защиту RTX 5000 и RX 9000 от... (292)
- Internet Archive взялся лечить интернет от... (512)
- «Джеймс Уэбб» обнаружил самую далёкую... (457)
- «То есть Concord вас ничему не научила?»:... (389)
- Intel придумала интегрированные конденсаторы... (604)
- Spotify синхронизирует аудиокниги с бумажной... (577)
- Биткоин рухнул ниже $67 000 — инвесторы... (374)
- Starlink стал золотой жилой SpaceX и скоро... (608)
- The Elder Scrolls IV: Oblivion Remastered... (466)
- Камера ночного видения, тепловизор, IP69K и... (790)
- The Information: Nvidia отказалась от... (744)
- Дуров: Telegram ни разу не передал данные из... (1117)
ИИ становится «умнее», когда спорит сам с собой
Дата: сегодня 14:09
Исследователи из Google представили работу, в которой объясняют, за счёт каких механизмов современные ИИ-модели достигают высокой точности при решении сложных задач. Проанализировав поведение продвинутых языковых моделей, обученных с подкреплением, авторы пришли к выводу, что ключевую роль играет не длина рассуждений, а формирование внутри модели устойчивой структуры внутреннего диалога между разными стратегиями мышления.
В статье этот механизм называется «society of thought» — «общество мыслей». Под ним понимается ситуация, когда в процессе рассуждения модель параллельно развивает несколько альтернативных линий рассуждений, которые проверяют, критикуют и корректируют друг друга. Такой процесс напоминает коллективное обсуждение, в котором разные точки зрения последовательно сталкиваются и уточняются.
Авторы опираются на идеи когнитивной науки, согласно которым человеческое мышление формировалось как социальный процесс, связанный с аргументацией и разрешением разногласий. Согласно гипотезе, при обучении с подкреплением языковые модели начинают воспроизводить аналогичную структуру внутри собственных вычислений, поскольку это повышает вероятность получения правильного ответа.
Для проверки этой гипотезы исследователи изучили работу моделей DeepSeek-R1 и QwQ-32B. Обе модели были обучены без инструкций вести внутренний диалог. Тем не менее при анализе цепочек рассуждений выяснилось, что они регулярно разделяют процесс решения на несколько «ролей», выполняющих разные функции: генерацию идей, проверку допущений, поиск альтернатив и исправление ошибок.
Так, в задаче по органическому синтезу модель сначала предложила стандартный путь реакции, а затем внутренний механизм проверки поставил под сомнение исходное предположение и указал на противоречие с известными фактами. В результате модель пересобрала решение и выбрала корректный маршрут синтеза. Аналогичная структура наблюдалась и в задачах редактирования текста, где один фрагмент рассуждения отвечал за стилистические улучшения, а другой — за сохранение исходного смысла.
Изображение сгенерировано: Grok Особенно наглядно этот эффект проявился в математической игре Countdown, где модель должна получить заданное число, используя фиксированный набор операций. На ранних этапах обучения она решала задачу в виде линейного монолога. По мере обучения с подкреплением внутри рассуждений начали формироваться два устойчивых режима: один отвечал за пошаговые вычисления, другой — за контроль неудачных попыток и поиск новых стратегий. Это сопровождалось заметным ростом точности.
Отдельная серия экспериментов показала, что усиление разнообразия внутренних состояний модели — например, за счёт активации механизмов, связанных с «неожиданностью» — приводит к расширению спектра рассматриваемых гипотез и почти двукратному росту точности в сложных задачах. При этом простое удлинение цепочек рассуждений без внутреннего разнообразия такого эффекта не даёт.
Авторы также сравнили разные способы обучения. Модели, дообученные на линейных «идеальных» решениях, демонстрировали более слабые результаты, чем системы, в которых спонтанно формировалась внутренняя дискуссия. В то же время дообучение на многосторонних диалогах и дебатах давало заметный прирост качества по сравнению с классическими цепочками рассуждений.
Из этого следует, что способность к внутреннему «социальному» рассуждению возникает как побочный эффект оптимизации на правильный ответ, а не как результат прямого надзора. По сути, обучение с подкреплением заставляет модель выстраивать внутри себя механизм проверки гипотез, поскольку именно он повышает вероятность успеха.
Практическое значение работы связано с разработкой прикладных ИИ-систем. Авторы показывают, что для повышения качества рассуждений важно не просто задавать модели несколько ролей в подсказке, а формировать противоположные установки, которые делают конфликт между стратегиями неизбежным. Это позволяет системе глубже исследовать пространство решений и избегать поверхностных ответов.
Кроме того, исследование ставит под сомнение практику жёсткой очистки обучающих данных. По мнению авторов, рабочие журналы, переписки и технические обсуждения, в которых решения формируются постепенно и с ошибками, могут быть особенно полезны для обучения моделей навыкам исследования и самопроверки. Отдельное внимание уделяется вопросам доверия и аудита. В высокорисковых областях пользователям важно видеть не только итоговый ответ, но и то, какие альтернативы рассматривались и почему от них отказались. Это требует разработки интерфейсов, которые смогут отображать внутренние рассуждения модели.
Подробнее на iXBT
Предыдущие новости
Владельцы премиум-кроссоверов Exeed жалуются на отключения систем безопасности прямо во время движения. Дилер — массовых проблем с авто Exeed в России нет
Владельцы премиальных китайских кроссоверов Exeed начали сообщать о некорректной работе электронных систем в условиях аномальных холодов. По информации Shot, водители сталкиваются с внезапным появлением ошибок на приборной панели («гирлянды») и отключением системы стабилизации ESP прямо во время движения. Некоторые владельцы утверждают, что автомобиль может «зависнуть» в таком...
Что будет, если современный SSD подключить старому слоту PCI. Энтузиаст проделал это и получил скорости ниже HDD с SATA
Пользователь Reddit с псевдонимом O_MORES поделился своим интересным экспериментом. Он заставил работать современный SSD с PCIe 3.0 в слоте PCI. Да, именно PCI, а не PCIe. Реализация тут довольно простая. SSD подключается в плате расширения с интерфейсом PCIe, коих на рынке немало. А затем эта плата подключается к переходнику PCIe-to-PCI. Фото Reddit (O_MORES) В таком...
Рядом с Солнцем обнаружена новая экзопланета в зоне обитаемости с марсианским уровнем освещённости
Астрономы представили подробный анализ данных спектрографа SPIRou, полученных при наблюдении красного карлика Gl 725 B — одной из ближайших к Солнцу маломассивных звёзд. Работа показывает, что вокруг этой звезды обращается по меньшей мере одна подтверждённая экзопланета в зоне обитаемости, а сама система обладает необычно упорядоченной структурой. Поиск каменистых экзопланет у...
Zotac представила недорогой ПК-корпус Gaming Alloy формата micro-ATX, в который уместится любая видеокарта и ещё 10 вентиляторов
Компания Zotac представила ПК-корпус Gaming Alloy формата micro-ATX. Он доступен в двух цветовых вариантах: чёрном с золотым и белом. Как говорит сама Zotac, Alloy — это первый в истории бренда компьютерный корпус, предназначенный для энтузиастов, собирающих ПК самостоятельно и ищущих относительно компактный форм-фактор microATX и оптимизированную систему охлаждения. ...