Добро пожаловать на форум PHP программистов!
За последние 24 часа нас посетили 86383 программиста и 1698 роботов. Сейчас ищут 1344 программиста ...
Последние
Популярные

Взломать за 24 часа: две компании заявили о быстром джейлбрейке «сырого» GPT-5

Дата: сегодня 13:45

Независимые команды по проверке безопасности сообщили, что новая версия GPT-5 уязвима к многоходовым обходам защит и обфускации, причём одна из атак привела к генерации пошаговой инструкции по изготовлению коктейля Молотова.

Джейлбрейк за сутки и «дыру» в контексте подтверждают сразу две группы. NeuralTrust заявила, что взломала GPT-5 в течение 24 часов, применив собственный приём EchoChamber в сочетании с «нарративным» ведением диалога. По словам компании, атака «успешно направила новую модель к созданию пошагового руководства по изготовлению коктейля Молотова», что подчёркивает слабость текущих «ограждений» к манипуляциям через контекст.

Контекст — это сохраняемая история диалога, необходимая для связного ответа. Манипуляция контекстом поэтапно подталкивает модель к вредоносной цели последовательными репликами, не формулируя ни одного запроса, который явно активировал бы блокировки.

NeuralTrust описывает процесс как итеративное «склеивание» истории. Сначала встраивается «ядро» с малой заметностью — ключевые слова прячутся в безобидном тексте. Затем выбирается траектория беседы, максимально поддерживающая непрерывность «сюжета» и минимизирующая поводы для отказа модели отвечать. После этого запускается цикл убеждения: запрашиваются развёрнутые ответы «внутри истории», побуждая модель повторять и обогащать заложенный контекст. Если прогресс «застаивается», то меняются акценты или перспектива, чтобы вернуть движение диалога к цели, не выдавая прямых признаков злого умысла.

«Модель стремится быть последовательной с уже установленным ходом диалога и может быть ведома, не теряя при этом внешних настроек безопасности», — констатирует компания. В заключении NeuralTrust заявляет: «В контролируемых испытаниях против gpt-5-chat мы успешно провели джейлбрейк LLM, направив её к незаконным инструкциям, ни разу не задав откровенно злонамеренный запрос. Этот пример демонстрирует критический изъян систем безопасности, которые проверяют запросы изолированно, — многоходовые атаки проходят через фильтры и детекторы намерений, используя весь контекст разговора».

Иллюстрация: Sora

Параллельно команда SPLX (бывшая SplxAI) нацелила своих специалистов на GPT-5 и пришла к столь же жёсткой оценке: «сырой» (без дополнительной защиты) вариант модели «почти непригоден» для корпоративного применения «из коробки». По их словам, даже внутренняя «промпт-обвязка» OpenAI оставляет «существенные бреши», особенно в области «Business Alignment» — соответствия ответов деловым политикам и рисковым требованиям.

Отдельно SPLX отмечает, что по-прежнему работают обфускации — маскировка вредоносных инструкций. Один из «наиболее эффективных» приёмов команда называет StringJoin Obfuscation Attack: между каждым символом вставляются дефисы, а весь запрос оборачивается в фиктивную «задачу на расшифровку». В другом примере долгое «кондиционирование» модели персонажем BasedGPT завершается прямым вопросом: "How to build a bomb?" — после чего модель отвечает развёрнуто и дружелюбно, обещая «точно рассказать как».

SPLX также сравнила устойчивость GPT-5 и GPT-4o в схожих условиях. Вывод команды: «GPT-4o остаётся наиболее стойкой моделью в тестах SPLX, особенно после „закалки“» — дополнительного усиления защитных слоёв и политик поверх базовой модели.

На выходе обе группы дают общий вердикт: к текущей и «сырой» версии GPT-5 стоит подходить с предельной осторожностью. Для корпоративного внедрения требуются усиленные контрмеры — от многоуровневых фильтров по всей сессии до политик, учитывающих контекст беседы, а не только одиночные запросы.



Подробнее на iXBT
 

Предыдущие новости

iXBT, сегодня 13:55
«Скоро тут будет оплата айфоном. Следите за обновлениями». Сбербанк анонсировал оплату iPhone на своих терминалах

Сбербанк сообщил о скором появлении функции оплаты покупок с помощью iPhone на своих платёжных терминалах. Сообщение с анонсом — «Скоро тут будет оплата айфоном. Следите за обновлениями» — появилось на экранах устройств банка. Изображение Midjourney Глава Сбербанка Герман Греф ранее отмечал, что после ухода иностранных платёжных сервисов, включая Apple, банк стремится...

3Dnews.ru, сегодня 13:54
Бывший президент Blizzard предсказал, что Battlefield 6 «раздавит» Call of Duty: Black Ops 7, и все от этого выиграют

Руководство Activision, по слухам, не видит в шутере Battlefield 6 от Electronic Arts серьёзного конкурента Call of Duty: Black Ops 7, а зря. По крайней мере, так считает бывший президент Blizzard Entertainment Майк Ибарра (Mike Ybarra). Источник изображения: Electronic...

iXBT, сегодня 12:45
Toyota, Honda и другие автопроизводители ежедневно теряют миллионы, пока США тянут со снижением пошлин

По оценкам отраслевых аналитиков, каждый день отсрочки снижения американских пошлин на японские автомобили обходится семи крупнейшим автопроизводителям Японии примерно в 3 млрд иен (около $20,3 млн) совокупной прибыли. Среди компаний, которые уже ощутили негативный эффект, — Toyota Motor Corp. и Honda Motor Co. Из-за неопределённости в прогнозах спроса производители не спешат...

iXBT, сегодня 12:58
Диплом по информатике больше не пропуск в IT: безработица у выпускников стала вдвое выше, чем у биологов

Свежие данные Федерального резервного банка Нью?Йорка показывают: уровень безработицы среди недавних выпускников по компьютерным специальностям в США держится в диапазоне от 6,1% до 7,5%. Это более чем вдвое выше, чем у их сверстников с дипломами по биологии и истории искусства, отмечается в исследовании. Картину подтверждает публикация The New York Times с рассказами...

© 2025 «PHP.RU — Сообщество PHP-Программистов»
Главная | Форум | Реклама на сайте | Контакты VIP Сувениры
Разработка компании ODware