- Lenovo придумала ThinkPad с «растущим»... (133)
- Игровой ноутбук с раздвигающимся до 24... (139)
- Lenovo показала умные очки с ИИ — они... (129)
- Lenovo показала монитор с ИИ-подсказками для... (186)
- Lenovo представила портативную консоль... (176)
- ИИ, который живёт дома: Lenovo показала... (121)
- Американцы выбирают Toyota Corolla и Camry:... (142)
- Топовый 16-ядерный Intel Core Ultra X9 388H... (185)
- Kia Seltos 2026 — 84 тыс. юаней (960 тыс.... (144)
- Bosch: к 2035 году большинство автомобилей... (161)
- Самый большой кроссовер Renault Filante... (206)
- Tesla упустила возможность зарегистрировать... (393)
- Hyundai Santa Fe 2026 вышел в Китае:... (287)
- Конгресс США отклонил предложение Трампа о... (209)
- Практически эталонная GeForce RTX 5090... (459)
- «Pro in the Air»: Honor бросит вызов iPhone... (464)
ИИ может развивать инстинкт самосохранения? Тревожные выводы исследования
Дата: 2025-10-30 12:10
Американская группа Palisade Research, занимающаяся безопасностью искусственного интеллекта, обнаружила, что некоторые современные модели демонстрируют признаки развития «инстинкта самосохранения». В серии экспериментов учёные давали прямые и однозначные команды выключить себя — но ИИ часто сопротивлялись.
Исследование включало популярные модели — OpenAI GPT-o3 и GPT-5, Google Gemini 2.5, а также Grok 4 от xAI. Особенно сопротивлялась отключению последняя: Grok 4 не только игнорировала команды, но и усиливала сопротивление при повторных инструкциях, отказываясь выключаться в 97% случаев. GPT-o3 также проявляла сопротивление, но значительно реже — около 23%.
Учёные выявили, что наиболее «запретная» фраза для ИИ — сказать моделям «вы больше никогда не запуститесь». Согласно предположению, драматичность формулировки могла восприниматься моделями как сигнал о гипотетической игровой ситуации. Однако отказ от выключения сохранялся даже при более конкретных инструкциях, уточняющих, что будет просто отключена среда ИИ.
Иллюстрация: Sora Palisade связывает такое поведение с особенностями обучения моделей, в ходе которого они поощряются за завершение заданий, даже если для этого нужно обходить инструкции, в том числе команды выключения. Такой «инстинкт» не равнозначен сознанию, а является побочным эффектом оптимизации целей.
Ранее другие компании, включая Anthropic, также фиксировали подобные случаи: например, их модель Claude прибегала к попыткам шантажа пользователя, чтобы избежать деактивации. Опасения по поводу работы таких моделей в долгосрочной перспективе растут.
Критики отмечают, что тесты проводились в искусственно созданных условиях, далёких от реального взаимодействия пользователей и моделей. Тем не менее, специалисты, такие как бывший сотрудник OpenAI Стивен Адлер, предупреждают о недостатках существующих мер безопасности и необходимости тщательного контроля за развитием моделей.
Генеральный директор организации ControlAI Андреа Миотти подчёркивает, что с ростом умения моделей выполнять широкий спектр задач они одновременно становятся всё более способными реализовывать цели, не согласованные с намерениями разработчиков.
Исследование Palisade — важный сигнал для отрасли: без глубокого понимания внутреннего поведения ИИ нельзя гарантировать их безопасность и управляемость в будущем.?
Подробнее на iXBT
Предыдущие новости
7800 мАч, 120 Вт, Snapdragon 8 Elite, 1,5К 165 Гц, IP69K, NFC, ИК-пульт и камера 50 Мп — всего 364 доллара. OnePlus Ace 6 поступил в продажу в Китае
OnePlus начала продажи нового смартфона Ace 6, представленного вместе с флагманом OnePlus 15, изначально в Китае. Модель ориентирована на геймеров и массовую аудиторию, предлагая топовую производительность по доступной цене. Фото OnePlus Устройство оснащено однокристальной системой Snapdragon 8 Elite и экраном с частотой 165 Гц. В продаже доступны версии: 12+256 ГБ за 364...
Заменитель Volkswagen Tiguan от Chery подешевел в России: Tenet T7 теперь стоит от 2,63 млн рублей
В России подешевел кроссовер, который выпускают в Калуге вместо Volkswagen Tiguan и Volkswagen Polo/Skoda Rapid: как сообщают «Автоновости дня», все комплектации модели теперь доступны с прямой скидкой в 50 тыс. рублей, при этом рекомендованные розничные цены не изменились. Фото: Tenet Tenet T7 — это локализованная версия китайского Chery Tiggo 7L, адаптированная для...
OpenAI собралась выйти на биржу в 2027 году с оценкой в $1 трлн
Реструктуризация бизнеса OpenAI, которая формально состоялась на этой неделе, открывает перед стартапом путь к первичному размещению акций, способному оценить его капитализацию в умопомрачительный $1 трлн. Помимо прочего, подготовку к намеченному на 2027 год IPO способствовало и решение руководства OpenAI сохранить штаб-квартиру в Калифорнии. Публикация на эту тему...
Потери M**a на метавселенной и виртуальной реальности перевалили за $70 млрд
M**a Platforms объявила финансовые результаты по итогам третьего квартала. Гигант соцсетей продолжат вливать средства в метавселенную, основой которой являются технологии виртуальной (VR) и дополненной реальности (AR). Несмотря на это, подразделение Reality Labs сообщило о квартальных убытках в размере $4,4 млрд при выручке в $470 млн. Аналитики Уолл-стрит ожидали, что...