- Ariane 6 с четырьмя ускорителями впервые... (125)
- Стремительный рост цен на память угрожает... (206)
- Vast Space впервые отправит коммерческую... (219)
- В сеть попали новые изображения Samsung... (195)
- На фоне гонки с OpenAI капитализация... (194)
- M**a отложила международный дебют умных... (186)
- Власти США решили не торопиться с запретом... (266)
- Новая статья: «Железо» эпохи... (506)
- Наскоро построенные ИИ ЦОД могут оказаться... (542)
- OpenAI выпустила GPT-5.3-Codex-Spark — свою... (752)
- ИИ заменит человека после смерти? Meta*... (865)
- Можно ли клонировать Gemini, завалив её... (560)
- Corsair меняет упаковку памяти DDR5 для... (786)
- В ядре Земли нашли водорода на 45 океанов —... (849)
- Sony представила флагманские TWS-наушники... (750)
- Несмотря на 10 месяцев молчания,... (813)
ИИ может развивать инстинкт самосохранения? Тревожные выводы исследования
Дата: 2025-10-30 12:10
Американская группа Palisade Research, занимающаяся безопасностью искусственного интеллекта, обнаружила, что некоторые современные модели демонстрируют признаки развития «инстинкта самосохранения». В серии экспериментов учёные давали прямые и однозначные команды выключить себя — но ИИ часто сопротивлялись.
Исследование включало популярные модели — OpenAI GPT-o3 и GPT-5, Google Gemini 2.5, а также Grok 4 от xAI. Особенно сопротивлялась отключению последняя: Grok 4 не только игнорировала команды, но и усиливала сопротивление при повторных инструкциях, отказываясь выключаться в 97% случаев. GPT-o3 также проявляла сопротивление, но значительно реже — около 23%.
Учёные выявили, что наиболее «запретная» фраза для ИИ — сказать моделям «вы больше никогда не запуститесь». Согласно предположению, драматичность формулировки могла восприниматься моделями как сигнал о гипотетической игровой ситуации. Однако отказ от выключения сохранялся даже при более конкретных инструкциях, уточняющих, что будет просто отключена среда ИИ.
Иллюстрация: Sora Palisade связывает такое поведение с особенностями обучения моделей, в ходе которого они поощряются за завершение заданий, даже если для этого нужно обходить инструкции, в том числе команды выключения. Такой «инстинкт» не равнозначен сознанию, а является побочным эффектом оптимизации целей.
Ранее другие компании, включая Anthropic, также фиксировали подобные случаи: например, их модель Claude прибегала к попыткам шантажа пользователя, чтобы избежать деактивации. Опасения по поводу работы таких моделей в долгосрочной перспективе растут.
Критики отмечают, что тесты проводились в искусственно созданных условиях, далёких от реального взаимодействия пользователей и моделей. Тем не менее, специалисты, такие как бывший сотрудник OpenAI Стивен Адлер, предупреждают о недостатках существующих мер безопасности и необходимости тщательного контроля за развитием моделей.
Генеральный директор организации ControlAI Андреа Миотти подчёркивает, что с ростом умения моделей выполнять широкий спектр задач они одновременно становятся всё более способными реализовывать цели, не согласованные с намерениями разработчиков.
Исследование Palisade — важный сигнал для отрасли: без глубокого понимания внутреннего поведения ИИ нельзя гарантировать их безопасность и управляемость в будущем.?
Подробнее на iXBT
Предыдущие новости
7800 мАч, 120 Вт, Snapdragon 8 Elite, 1,5К 165 Гц, IP69K, NFC, ИК-пульт и камера 50 Мп — всего 364 доллара. OnePlus Ace 6 поступил в продажу в Китае
OnePlus начала продажи нового смартфона Ace 6, представленного вместе с флагманом OnePlus 15, изначально в Китае. Модель ориентирована на геймеров и массовую аудиторию, предлагая топовую производительность по доступной цене. Фото OnePlus Устройство оснащено однокристальной системой Snapdragon 8 Elite и экраном с частотой 165 Гц. В продаже доступны версии: 12+256 ГБ за 364...
Заменитель Volkswagen Tiguan от Chery подешевел в России: Tenet T7 теперь стоит от 2,63 млн рублей
В России подешевел кроссовер, который выпускают в Калуге вместо Volkswagen Tiguan и Volkswagen Polo/Skoda Rapid: как сообщают «Автоновости дня», все комплектации модели теперь доступны с прямой скидкой в 50 тыс. рублей, при этом рекомендованные розничные цены не изменились. Фото: Tenet Tenet T7 — это локализованная версия китайского Chery Tiggo 7L, адаптированная для...
OpenAI собралась выйти на биржу в 2027 году с оценкой в $1 трлн
Реструктуризация бизнеса OpenAI, которая формально состоялась на этой неделе, открывает перед стартапом путь к первичному размещению акций, способному оценить его капитализацию в умопомрачительный $1 трлн. Помимо прочего, подготовку к намеченному на 2027 год IPO способствовало и решение руководства OpenAI сохранить штаб-квартиру в Калифорнии. Публикация на эту тему...
Потери M**a на метавселенной и виртуальной реальности перевалили за $70 млрд
M**a Platforms объявила финансовые результаты по итогам третьего квартала. Гигант соцсетей продолжат вливать средства в метавселенную, основой которой являются технологии виртуальной (VR) и дополненной реальности (AR). Несмотря на это, подразделение Reality Labs сообщило о квартальных убытках в размере $4,4 млрд при выручке в $470 млн. Аналитики Уолл-стрит ожидали, что...