- Новую «вау-функцию» Samsung Galaxy S26 Ultra... (1413)
- Права станут «вездеходными»: в России... (1383)
- Россияне смогут увидеть редчайший парад... (1533)
- Смартфоны Meizu — всё. Компания меняет... (1583)
- Камера Samsung Galaxy S26 Ultra работает... (1952)
- Космический корабль Cargo Dragon покинул МКС... (1661)
- К чему готовится Mitsubishi? Японский бренд... (1716)
- УАЗ запускает мощнейшую прессовую линию и... (1561)
- Nvidia рискует остаться с переполненными... (1642)
- Обязательства по закупкам Nvidia выросли в... (1352)
- «Cлишком хорошо, чтобы быть правдой»:... (1283)
- Публикация квартальной отчётности... (1537)
- Сегодня — на полигоне Мэсси, в конце 2026... (1736)
- Samsung объяснила, почему Galaxy S26 не... (1870)
- Ford все никак не научится выпускать машины... (1703)
- Porsche одумалась: будущий большой... (1907)
ИИ может развивать инстинкт самосохранения? Тревожные выводы исследования
Дата: 2025-10-30 12:10
Американская группа Palisade Research, занимающаяся безопасностью искусственного интеллекта, обнаружила, что некоторые современные модели демонстрируют признаки развития «инстинкта самосохранения». В серии экспериментов учёные давали прямые и однозначные команды выключить себя — но ИИ часто сопротивлялись.
Исследование включало популярные модели — OpenAI GPT-o3 и GPT-5, Google Gemini 2.5, а также Grok 4 от xAI. Особенно сопротивлялась отключению последняя: Grok 4 не только игнорировала команды, но и усиливала сопротивление при повторных инструкциях, отказываясь выключаться в 97% случаев. GPT-o3 также проявляла сопротивление, но значительно реже — около 23%.
Учёные выявили, что наиболее «запретная» фраза для ИИ — сказать моделям «вы больше никогда не запуститесь». Согласно предположению, драматичность формулировки могла восприниматься моделями как сигнал о гипотетической игровой ситуации. Однако отказ от выключения сохранялся даже при более конкретных инструкциях, уточняющих, что будет просто отключена среда ИИ.
Иллюстрация: Sora Palisade связывает такое поведение с особенностями обучения моделей, в ходе которого они поощряются за завершение заданий, даже если для этого нужно обходить инструкции, в том числе команды выключения. Такой «инстинкт» не равнозначен сознанию, а является побочным эффектом оптимизации целей.
Ранее другие компании, включая Anthropic, также фиксировали подобные случаи: например, их модель Claude прибегала к попыткам шантажа пользователя, чтобы избежать деактивации. Опасения по поводу работы таких моделей в долгосрочной перспективе растут.
Критики отмечают, что тесты проводились в искусственно созданных условиях, далёких от реального взаимодействия пользователей и моделей. Тем не менее, специалисты, такие как бывший сотрудник OpenAI Стивен Адлер, предупреждают о недостатках существующих мер безопасности и необходимости тщательного контроля за развитием моделей.
Генеральный директор организации ControlAI Андреа Миотти подчёркивает, что с ростом умения моделей выполнять широкий спектр задач они одновременно становятся всё более способными реализовывать цели, не согласованные с намерениями разработчиков.
Исследование Palisade — важный сигнал для отрасли: без глубокого понимания внутреннего поведения ИИ нельзя гарантировать их безопасность и управляемость в будущем.?
Подробнее на iXBT
Предыдущие новости
7800 мАч, 120 Вт, Snapdragon 8 Elite, 1,5К 165 Гц, IP69K, NFC, ИК-пульт и камера 50 Мп — всего 364 доллара. OnePlus Ace 6 поступил в продажу в Китае
OnePlus начала продажи нового смартфона Ace 6, представленного вместе с флагманом OnePlus 15, изначально в Китае. Модель ориентирована на геймеров и массовую аудиторию, предлагая топовую производительность по доступной цене. Фото OnePlus Устройство оснащено однокристальной системой Snapdragon 8 Elite и экраном с частотой 165 Гц. В продаже доступны версии: 12+256 ГБ за 364...
Заменитель Volkswagen Tiguan от Chery подешевел в России: Tenet T7 теперь стоит от 2,63 млн рублей
В России подешевел кроссовер, который выпускают в Калуге вместо Volkswagen Tiguan и Volkswagen Polo/Skoda Rapid: как сообщают «Автоновости дня», все комплектации модели теперь доступны с прямой скидкой в 50 тыс. рублей, при этом рекомендованные розничные цены не изменились. Фото: Tenet Tenet T7 — это локализованная версия китайского Chery Tiggo 7L, адаптированная для...
OpenAI собралась выйти на биржу в 2027 году с оценкой в $1 трлн
Реструктуризация бизнеса OpenAI, которая формально состоялась на этой неделе, открывает перед стартапом путь к первичному размещению акций, способному оценить его капитализацию в умопомрачительный $1 трлн. Помимо прочего, подготовку к намеченному на 2027 год IPO способствовало и решение руководства OpenAI сохранить штаб-квартиру в Калифорнии. Публикация на эту тему...
Потери M**a на метавселенной и виртуальной реальности перевалили за $70 млрд
M**a Platforms объявила финансовые результаты по итогам третьего квартала. Гигант соцсетей продолжат вливать средства в метавселенную, основой которой являются технологии виртуальной (VR) и дополненной реальности (AR). Несмотря на это, подразделение Reality Labs сообщило о квартальных убытках в размере $4,4 млрд при выручке в $470 млн. Аналитики Уолл-стрит ожидали, что...