Рекурсивный акроним словосочетания «PHP: Hypertext Preprocessor»

Добро пожаловать на форум PHP программистов!

За последние 24 часа нас посетили 29284 программиста и 3004 робота. Сейчас ищут 804 программиста ...

Последние

«МРТ для ИИ»: учёные Anthropic «взломали» мозг Claude, и модель заметила вмешательство

Дата: 2025-10-30 10:29

Команда исследователей из компании Anthropic провела уникальные эксперименты с моделью искусственного интеллекта Claude, показав первые доказательства её способности к интроспекции — самонаблюдению и отчёту о собственных мыслях и состояниях.

В одном из опытов учёные «внедряли» в Claude абстрактное понятие «предательство» и спросили, замечает ли она что-то необычное. Модель ответила: «Я испытываю нечто похожее на навязчивую мысль о "предательстве"».

Для проверки интроспекции в Anthropic разработали методику «введения концептов», с помощью которой меняли активность нейронов, отвечающих за конкретные понятия, такие как «собаки», «громкость» или абстрактные эмоции, и просили Claude определить, заметила ли она изменения. Вопреки предположениям, что модели лишь имитируют ответы, выдавая логически звучащие фразы, Claude действительно фиксировала вмешательство до того, как оно влияло на её ответы.

Эксперименты показали, что новые версии Claude Opus 4 и Opus 4.1 демонстрируют интроспективные способности примерно в 20% попыток, а более старые модели гораздо реже. Особенно хорошо модель распознаёт эмоциональные и абстрактные понятия, например «благодарность» или «секретность». Кроме того, Claude умеет отделять свои «мысли» во внутреннем пространстве от ввода и даже распознавать искусственно подставленные пользователем тексты.

Иллюстрация: Sora

Внутренний процесс «мышления» модели был прослежен при создании рифмованной поэзии: Claude планировала рифмы заранее, создавая варианты для окончания строки и подбирая предложения, ведущие к ним. Это опровергает мнение о том, что такие ИИ лишь прогнозируют ближайшее слово без более глубокого рассуждения.

Однако учёные подчёркивают, что интроспекция у Claude нестабильна и контекстозависима. Модель часто ошибается, иногда «забывает» о введённых концептах или, напротив, «залипает» на них. В ряде случаев демонстрируются выдуманные детали — конфабуляции, не имеющие настоящего основания.

Руководитель исследования, нейробиолог Джек Линдси, предупреждает, что результаты не означают, что можно слепо доверять внутренним отчётам модели. Однако они открывают новые возможности для повышения транспарентности и подотчётности ИИ: можно задавать модели вопросы о причинах её ответов и получать честные, пусть и не всегда точные, пояснения.

Исследование возникает на фоне растущей заинтересованности в безопасности ИИ — компании стремятся создавать более понятные и управляемые системы. Anthropic поставила цель к 2027 году калибровать и устранять большинство проблем моделей с помощью методов интерпретируемости, делая ИИ более контролируемыми и менее опасными для общества.

Работа даёт представление о том, что примитивное самосознание у языковых моделей уже существует — вопрос в том, как развить и надёжно использовать эти способности ради безопасности и пользы человека.

Подробнее на iXBT

Предыдущие новости

iXBT, 2025-10-30 11:07
Праздник у владельцев Xiaomi 15: глобальная версия получила финальную HyperOS 3 с Android 16

Глобальная версия Xiaomi 15 получила стабильную версию обновления HyperOS на базе операционной системы Android 16. Прошивка включает в себя обновлённый пользовательский интерфейс, новые интересные функции, усовершенствованный ИИ, улучшенную производительность и более плавную анимацию. Стабильное обновление HyperOS 3 для глобальной версии Xiaomi 15 имеет версию прошивки...

iXBT, 2025-10-30 11:19
2K-экран диагональю почти 8 дюймов, Kirin 9030, большой аккумулятор, улучшенная камера и более лёгкий и тонкий корпус. Инсайдер рассекретил Huawei Mate X7

Основные характеристики будущего складного смартфона Huawei Mate X7 раскрыл инсайдер Digital Chat Station. По данным источника, Huawei Mate X7 под кодовым названием Delphi предположительно выйдет в ноябре. Инженерный прототип устройства, как сообщается, оснащён 7,95-дюймовым складным дисплеем с разрешением около 2K, сочетающим в себе технологию Color-on-Encapsulation (COE) для...

iXBT, 2025-10-30 11:26
У россиян появился совершенно новый способ покупки Chery местной сборки: Tenet стал первым автопроизводителем, запустившим онлайн-продажи на «Автоспоте»

Tenet объявил о старте онлайн-продаж автомобилей на платформе «Автоспот». Компания заявила, что стала первым автопроизводителем на этой платформе, чьи машины можно купить полностью в цифровом формате — от выбора модели до получения ключей. Этот шаг делает «Автоспот» полноценным автомобильным маркетплейсом. Процесс покупки включает выбор модели в каталоге, оформление заказа,...

iXBT, 2025-10-30 10:33
Vodafone покупает компанию Skaylink

Vodafone заявила о приобретении немецкой компании Skaylink, занимающейся облачными технологиями и цифровой трансформацией, за 175 миллионов евро у частной инвестиционной компании Waterland с целью расширения спектра предлагаемых ею услуг. Компания Skaylink, в которой работает более 500 сотрудников по всей Германии и Европе, специализируется на управлении облачными сервисами на...