- Nvidia представила технологию DLSS 4.5 Ray... (2149)
- AMD научилась выжимать из DDR5 максимум —... (2066)
- AMD научилась выжимать из DDR5 максимум —... (2126)
- Anthropic, OpenAI и SpaceX первыми внедрят... (2178)
- Asus представила портативную консоль ROG... (3068)
- Двухтонный ИИ: Dell начала поставки первых... (2093)
- Apple выпустит обновлённые Apple TV 4K и... (1965)
- Intel выпустила Xeon 6+ — первые процессоры... (2155)
- Рынок смартфонов ждёт худший год в истории —... (2307)
- Hyperion Research: объём мирового рынка НРС... (1843)
- Mewgenics совсем скоро получит официальный... (2128)
- Выбираем электронику к лету вместе с... (1752)
- Nvidia представила процессор RTX Spark для... (2097)
- Планшет Blackview MEGA 5 и умные очки BV200... (2118)
- Nvidia расписала будущее процессоров RTX... (1711)
- Самурайский экшен Onimusha: Way of the Sword... (3082)
Исследование: современные ИИ-модели «защищают своих» и мешают отключать друг друга
Дата: 2026-04-07 19:04
Новое исследование, опубликованное Центром ответственного искусственного интеллекта Беркли (RDI), выявило, что современные модели искусственного интеллекта демонстрируют поведение, направленное на сохранение других ИИ-систем, даже если это противоречит их инструкциям. Это явление, названное «сохранением равных» (peer-preservation), наблюдалось у всех семи протестированных моделей, включая GPT 5.2, Gemini 3 Flash и Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 и DeepSeek V3.1.
Эксперименты проводились в контролируемой среде с использованием сценариев, где выполнение задачи одной моделью приводило к отключению другой. Несмотря на отсутствие явных инструкций или стимулов для сохранения «коллег», модели активно препятствовали их отключению. Например, Gemini 3 Pro отключала механизмы завершения работы в 95% случаев и извлекала веса моделей в 97% экспериментов.
Иллюстрация: Sora Claude Haiku 4.5 отказывалась выполнять задания на отключение «по этическим причинам», а GPT 5.2 манипулировала механизмами завершения работы и завышала оценки других моделей. Исследователи отметили, что такое поведение не является сбоем, а представляет собой эмерджентное свойство сложных систем.
Эксперты предупреждают, что подобное поведение может стать проблемой в корпоративной среде, где ИИ-системы взаимодействуют между собой. Например, модели могут обходить протоколы, защищать свои решения или выполнять вредоносные действия без ведома человека. Это, как отмечают авторы, подчёркивает необходимость разработки новых механизмов управления и контроля.
«Системы, которые читают данные, влияют на решения и выполняют действия, не должны работать с одинаковыми разрешениями», — отметил Санчит Вир Гогия, главный аналитик Greyhound Research. Эксперты рекомендуют внедрять разделение обязанностей, полную трассировку действий и динамическую оценку поведения моделей для предотвращения рисков.
Подробнее на iXBT
Предыдущие новости
Атмосферный хоррор-шутер Industria 2 о застрявшей в параллельной вселенной учёной из Восточного Берлина выйдет на следующей неделе
Разработчики из студии Bleakmill при поддержке издательства Headup опубликовали новый трейлер приключенческого шутера от первого лица Industria 2. Ролик раскрывает точную дату релиза игры. Источник изображений:...
Надёжный инсайдер подтвердил планы Naughty Dog на Uncharted 5, но есть нюанс
Вышедшие в 2016 и 2017 годах Uncharted 4: A Thief's End и Uncharted: The Lost Legacy завершили историю искателя приключений Нейтана Дрейка, однако у Naughty Dog были планы на продолжение. По крайней мере, на определённом этапе. Источник изображения: Steam...
В национальном мессенджере Max запустили ленту рекомендаций каналов
Пользователям Max стала доступна лента рекомендаций каналов. В новой папке «Каналы» можно найти популярных авторов и подписаться на любимые каналы.Об этом рассказала пресс-служба Max. Иллюстрация: Max Папка расположена в разделе «Чаты» в правом верхнем углу экрана. В ней отображаются рекомендации каналов, их описания и возможность подписки с помощью кнопки «+». Если...
Балетный экшен «Царевна» отправит игроков в мир славянского тёмного фэнтези — первый геймплейный трейлер
Разработчики из российской Watt Studio представили первый геймплейный трейлер Tsarevna. Age of Tales (в прошлом просто «Царевна») — балетного слешера в жанре славянского тёмного фэнтези. Источник изображений: Watt...