- Борьба со спойлерами вышла на новый уровень:... (1706)
- Сверхновая SN 2024abvb: редкий взрыв на... (1402)
- АТ 2024wpp: самая яркая быстрая оптическая... (1678)
- Бельгийцы обнаружили возможность ускорить... (1528)
- SpaceX хочет дать каждому смартфону 150... (1709)
- Не клон Geely Monjaro, а настоящая новая... (1768)
- «Дешёвая пародия с YouTube»: фанаты не... (1420)
- Galaxy S26 Ultra заряжается быстрее, чем... (1563)
- Sony и Toyota крупно вложились в конкурента... (1667)
- OpenAI раздулась до $840 млрд — создатель... (1694)
- Мультиплеерный экшен Spellcasters Chronicles... (1440)
- NASA отменило высадку астронавтов на Луну в... (1672)
- Бывший глава Twitter Джек Дорси объяснил,... (1737)
- Почти Lumia, и даже со встроенным... (1600)
- Кулеры DeepCool AK G2 и Mystique удостоены... (1620)
- Женщина в суде обвинила I*******m и YouTube... (1731)
ИИ может развивать инстинкт самосохранения? Тревожные выводы исследования
Дата: 2025-10-30 12:10
Американская группа Palisade Research, занимающаяся безопасностью искусственного интеллекта, обнаружила, что некоторые современные модели демонстрируют признаки развития «инстинкта самосохранения». В серии экспериментов учёные давали прямые и однозначные команды выключить себя — но ИИ часто сопротивлялись.
Исследование включало популярные модели — OpenAI GPT-o3 и GPT-5, Google Gemini 2.5, а также Grok 4 от xAI. Особенно сопротивлялась отключению последняя: Grok 4 не только игнорировала команды, но и усиливала сопротивление при повторных инструкциях, отказываясь выключаться в 97% случаев. GPT-o3 также проявляла сопротивление, но значительно реже — около 23%.
Учёные выявили, что наиболее «запретная» фраза для ИИ — сказать моделям «вы больше никогда не запуститесь». Согласно предположению, драматичность формулировки могла восприниматься моделями как сигнал о гипотетической игровой ситуации. Однако отказ от выключения сохранялся даже при более конкретных инструкциях, уточняющих, что будет просто отключена среда ИИ.
Иллюстрация: Sora Palisade связывает такое поведение с особенностями обучения моделей, в ходе которого они поощряются за завершение заданий, даже если для этого нужно обходить инструкции, в том числе команды выключения. Такой «инстинкт» не равнозначен сознанию, а является побочным эффектом оптимизации целей.
Ранее другие компании, включая Anthropic, также фиксировали подобные случаи: например, их модель Claude прибегала к попыткам шантажа пользователя, чтобы избежать деактивации. Опасения по поводу работы таких моделей в долгосрочной перспективе растут.
Критики отмечают, что тесты проводились в искусственно созданных условиях, далёких от реального взаимодействия пользователей и моделей. Тем не менее, специалисты, такие как бывший сотрудник OpenAI Стивен Адлер, предупреждают о недостатках существующих мер безопасности и необходимости тщательного контроля за развитием моделей.
Генеральный директор организации ControlAI Андреа Миотти подчёркивает, что с ростом умения моделей выполнять широкий спектр задач они одновременно становятся всё более способными реализовывать цели, не согласованные с намерениями разработчиков.
Исследование Palisade — важный сигнал для отрасли: без глубокого понимания внутреннего поведения ИИ нельзя гарантировать их безопасность и управляемость в будущем.?
Подробнее на iXBT
Предыдущие новости
7800 мАч, 120 Вт, Snapdragon 8 Elite, 1,5К 165 Гц, IP69K, NFC, ИК-пульт и камера 50 Мп — всего 364 доллара. OnePlus Ace 6 поступил в продажу в Китае
OnePlus начала продажи нового смартфона Ace 6, представленного вместе с флагманом OnePlus 15, изначально в Китае. Модель ориентирована на геймеров и массовую аудиторию, предлагая топовую производительность по доступной цене. Фото OnePlus Устройство оснащено однокристальной системой Snapdragon 8 Elite и экраном с частотой 165 Гц. В продаже доступны версии: 12+256 ГБ за 364...
Заменитель Volkswagen Tiguan от Chery подешевел в России: Tenet T7 теперь стоит от 2,63 млн рублей
В России подешевел кроссовер, который выпускают в Калуге вместо Volkswagen Tiguan и Volkswagen Polo/Skoda Rapid: как сообщают «Автоновости дня», все комплектации модели теперь доступны с прямой скидкой в 50 тыс. рублей, при этом рекомендованные розничные цены не изменились. Фото: Tenet Tenet T7 — это локализованная версия китайского Chery Tiggo 7L, адаптированная для...
OpenAI собралась выйти на биржу в 2027 году с оценкой в $1 трлн
Реструктуризация бизнеса OpenAI, которая формально состоялась на этой неделе, открывает перед стартапом путь к первичному размещению акций, способному оценить его капитализацию в умопомрачительный $1 трлн. Помимо прочего, подготовку к намеченному на 2027 год IPO способствовало и решение руководства OpenAI сохранить штаб-квартиру в Калифорнии. Публикация на эту тему...
Потери M**a на метавселенной и виртуальной реальности перевалили за $70 млрд
M**a Platforms объявила финансовые результаты по итогам третьего квартала. Гигант соцсетей продолжат вливать средства в метавселенную, основой которой являются технологии виртуальной (VR) и дополненной реальности (AR). Несмотря на это, подразделение Reality Labs сообщило о квартальных убытках в размере $4,4 млрд при выручке в $470 млн. Аналитики Уолл-стрит ожидали, что...