- Стала известна причина экстренной эвакуации... (6441)
- Acer представила твердотельные накопители... (5930)
- Первая жидкостная система охлаждения Noctua... (6470)
- «Яндекс Карты» и «Навигатор» начали... (5971)
- Fujitsu разработает 1,4-нм чип для ИИ —... (6163)
- Реальные 240 Гц, разрешение 1,5К и почти... (6682)
- Samsung поднимет цены на флагманские... (6447)
- Не самый мощный смартфон, но всего за 85... (5668)
- BYD уволила каждого десятого сотрудника ради... (6220)
- Один из крупнейших в Европе центров... (5838)
- Nebius Аркадия Воложа построит в Финляндии... (5811)
- В Huawei Pura X2 ожидается камера с дизайном... (5622)
- Китай одобрил государственные ракеты под... (6034)
- Назад в 90-е: на фоне отключений мобильного... (5547)
- DeepSeek немного поработал и снова... (6319)
- Число пользователей «Сферума» в Max достигло... (5699)
ИИ может развивать инстинкт самосохранения? Тревожные выводы исследования
Дата: 2025-10-30 12:10
Американская группа Palisade Research, занимающаяся безопасностью искусственного интеллекта, обнаружила, что некоторые современные модели демонстрируют признаки развития «инстинкта самосохранения». В серии экспериментов учёные давали прямые и однозначные команды выключить себя — но ИИ часто сопротивлялись.
Исследование включало популярные модели — OpenAI GPT-o3 и GPT-5, Google Gemini 2.5, а также Grok 4 от xAI. Особенно сопротивлялась отключению последняя: Grok 4 не только игнорировала команды, но и усиливала сопротивление при повторных инструкциях, отказываясь выключаться в 97% случаев. GPT-o3 также проявляла сопротивление, но значительно реже — около 23%.
Учёные выявили, что наиболее «запретная» фраза для ИИ — сказать моделям «вы больше никогда не запуститесь». Согласно предположению, драматичность формулировки могла восприниматься моделями как сигнал о гипотетической игровой ситуации. Однако отказ от выключения сохранялся даже при более конкретных инструкциях, уточняющих, что будет просто отключена среда ИИ.
Иллюстрация: Sora Palisade связывает такое поведение с особенностями обучения моделей, в ходе которого они поощряются за завершение заданий, даже если для этого нужно обходить инструкции, в том числе команды выключения. Такой «инстинкт» не равнозначен сознанию, а является побочным эффектом оптимизации целей.
Ранее другие компании, включая Anthropic, также фиксировали подобные случаи: например, их модель Claude прибегала к попыткам шантажа пользователя, чтобы избежать деактивации. Опасения по поводу работы таких моделей в долгосрочной перспективе растут.
Критики отмечают, что тесты проводились в искусственно созданных условиях, далёких от реального взаимодействия пользователей и моделей. Тем не менее, специалисты, такие как бывший сотрудник OpenAI Стивен Адлер, предупреждают о недостатках существующих мер безопасности и необходимости тщательного контроля за развитием моделей.
Генеральный директор организации ControlAI Андреа Миотти подчёркивает, что с ростом умения моделей выполнять широкий спектр задач они одновременно становятся всё более способными реализовывать цели, не согласованные с намерениями разработчиков.
Исследование Palisade — важный сигнал для отрасли: без глубокого понимания внутреннего поведения ИИ нельзя гарантировать их безопасность и управляемость в будущем.?
Подробнее на iXBT
Предыдущие новости
7800 мАч, 120 Вт, Snapdragon 8 Elite, 1,5К 165 Гц, IP69K, NFC, ИК-пульт и камера 50 Мп — всего 364 доллара. OnePlus Ace 6 поступил в продажу в Китае
OnePlus начала продажи нового смартфона Ace 6, представленного вместе с флагманом OnePlus 15, изначально в Китае. Модель ориентирована на геймеров и массовую аудиторию, предлагая топовую производительность по доступной цене. Фото OnePlus Устройство оснащено однокристальной системой Snapdragon 8 Elite и экраном с частотой 165 Гц. В продаже доступны версии: 12+256 ГБ за 364...
Заменитель Volkswagen Tiguan от Chery подешевел в России: Tenet T7 теперь стоит от 2,63 млн рублей
В России подешевел кроссовер, который выпускают в Калуге вместо Volkswagen Tiguan и Volkswagen Polo/Skoda Rapid: как сообщают «Автоновости дня», все комплектации модели теперь доступны с прямой скидкой в 50 тыс. рублей, при этом рекомендованные розничные цены не изменились. Фото: Tenet Tenet T7 — это локализованная версия китайского Chery Tiggo 7L, адаптированная для...
OpenAI собралась выйти на биржу в 2027 году с оценкой в $1 трлн
Реструктуризация бизнеса OpenAI, которая формально состоялась на этой неделе, открывает перед стартапом путь к первичному размещению акций, способному оценить его капитализацию в умопомрачительный $1 трлн. Помимо прочего, подготовку к намеченному на 2027 год IPO способствовало и решение руководства OpenAI сохранить штаб-квартиру в Калифорнии. Публикация на эту тему...
Потери M**a на метавселенной и виртуальной реальности перевалили за $70 млрд
M**a Platforms объявила финансовые результаты по итогам третьего квартала. Гигант соцсетей продолжат вливать средства в метавселенную, основой которой являются технологии виртуальной (VR) и дополненной реальности (AR). Несмотря на это, подразделение Reality Labs сообщило о квартальных убытках в размере $4,4 млрд при выручке в $470 млн. Аналитики Уолл-стрит ожидали, что...