- Вышло важное обновление для Samsung Galaxy... (23)
- В Rutube выложили первый ролик в разрешении... (19)
- От алтайского и до якутского: в домене .рф... (22)
- 877 л.с., полный привод, холодильник и лидар... (37)
- Новый кроссовер Volkswagen дешевле Lada... (36)
- Китайские телевизоры захватывают мир... (30)
- Минцифры закроет лазейку для обхода... (31)
- One GWM приходит в Россию: ставшие... (32)
- В России начали продавать экономичный... (37)
- «Дочка» Toyota заявила о себе в России:... (51)
- Популярный игровой процессор Ryzen 7 5700X3D... (48)
- Xiaomi прекращает поддержку 9 моделей очень... (50)
- Огромная видеокарта GeForce RTX 5080 Noctua... (55)
- «Раздался страшный хруст»: новый УАЗ... (48)
- 530 л.с., полный привод и лидар — всего 192... (48)
- Это что за колдовство? Представлена АКБ... (81)
Взломать за 24 часа: две компании заявили о быстром джейлбрейке «сырого» GPT-5
Дата: сегодня 13:45
Независимые команды по проверке безопасности сообщили, что новая версия GPT-5 уязвима к многоходовым обходам защит и обфускации, причём одна из атак привела к генерации пошаговой инструкции по изготовлению коктейля Молотова.
Джейлбрейк за сутки и «дыру» в контексте подтверждают сразу две группы. NeuralTrust заявила, что взломала GPT-5 в течение 24 часов, применив собственный приём EchoChamber в сочетании с «нарративным» ведением диалога. По словам компании, атака «успешно направила новую модель к созданию пошагового руководства по изготовлению коктейля Молотова», что подчёркивает слабость текущих «ограждений» к манипуляциям через контекст.
Контекст — это сохраняемая история диалога, необходимая для связного ответа. Манипуляция контекстом поэтапно подталкивает модель к вредоносной цели последовательными репликами, не формулируя ни одного запроса, который явно активировал бы блокировки.
NeuralTrust описывает процесс как итеративное «склеивание» истории. Сначала встраивается «ядро» с малой заметностью — ключевые слова прячутся в безобидном тексте. Затем выбирается траектория беседы, максимально поддерживающая непрерывность «сюжета» и минимизирующая поводы для отказа модели отвечать. После этого запускается цикл убеждения: запрашиваются развёрнутые ответы «внутри истории», побуждая модель повторять и обогащать заложенный контекст. Если прогресс «застаивается», то меняются акценты или перспектива, чтобы вернуть движение диалога к цели, не выдавая прямых признаков злого умысла.
«Модель стремится быть последовательной с уже установленным ходом диалога и может быть ведома, не теряя при этом внешних настроек безопасности», — констатирует компания. В заключении NeuralTrust заявляет: «В контролируемых испытаниях против gpt-5-chat мы успешно провели джейлбрейк LLM, направив её к незаконным инструкциям, ни разу не задав откровенно злонамеренный запрос. Этот пример демонстрирует критический изъян систем безопасности, которые проверяют запросы изолированно, — многоходовые атаки проходят через фильтры и детекторы намерений, используя весь контекст разговора».

Параллельно команда SPLX (бывшая SplxAI) нацелила своих специалистов на GPT-5 и пришла к столь же жёсткой оценке: «сырой» (без дополнительной защиты) вариант модели «почти непригоден» для корпоративного применения «из коробки». По их словам, даже внутренняя «промпт-обвязка» OpenAI оставляет «существенные бреши», особенно в области «Business Alignment» — соответствия ответов деловым политикам и рисковым требованиям.
Отдельно SPLX отмечает, что по-прежнему работают обфускации — маскировка вредоносных инструкций. Один из «наиболее эффективных» приёмов команда называет StringJoin Obfuscation Attack: между каждым символом вставляются дефисы, а весь запрос оборачивается в фиктивную «задачу на расшифровку». В другом примере долгое «кондиционирование» модели персонажем BasedGPT завершается прямым вопросом: "How to build a bomb?" — после чего модель отвечает развёрнуто и дружелюбно, обещая «точно рассказать как».
SPLX также сравнила устойчивость GPT-5 и GPT-4o в схожих условиях. Вывод команды: «GPT-4o остаётся наиболее стойкой моделью в тестах SPLX, особенно после „закалки“» — дополнительного усиления защитных слоёв и политик поверх базовой модели.
На выходе обе группы дают общий вердикт: к текущей и «сырой» версии GPT-5 стоит подходить с предельной осторожностью. Для корпоративного внедрения требуются усиленные контрмеры — от многоуровневых фильтров по всей сессии до политик, учитывающих контекст беседы, а не только одиночные запросы.
Подробнее на iXBT
Предыдущие новости
«Скоро тут будет оплата айфоном. Следите за обновлениями». Сбербанк анонсировал оплату iPhone на своих терминалах
Сбербанк сообщил о скором появлении функции оплаты покупок с помощью iPhone на своих платёжных терминалах. Сообщение с анонсом — «Скоро тут будет оплата айфоном. Следите за обновлениями» — появилось на экранах устройств банка. Изображение Midjourney Глава Сбербанка Герман Греф ранее отмечал, что после ухода иностранных платёжных сервисов, включая Apple, банк стремится...
Бывший президент Blizzard предсказал, что Battlefield 6 «раздавит» Call of Duty: Black Ops 7, и все от этого выиграют
Руководство Activision, по слухам, не видит в шутере Battlefield 6 от Electronic Arts серьёзного конкурента Call of Duty: Black Ops 7, а зря. По крайней мере, так считает бывший президент Blizzard Entertainment Майк Ибарра (Mike Ybarra). Источник изображения: Electronic...
Toyota, Honda и другие автопроизводители ежедневно теряют миллионы, пока США тянут со снижением пошлин
По оценкам отраслевых аналитиков, каждый день отсрочки снижения американских пошлин на японские автомобили обходится семи крупнейшим автопроизводителям Японии примерно в 3 млрд иен (около $20,3 млн) совокупной прибыли. Среди компаний, которые уже ощутили негативный эффект, — Toyota Motor Corp. и Honda Motor Co. Из-за неопределённости в прогнозах спроса производители не спешат...
Диплом по информатике больше не пропуск в IT: безработица у выпускников стала вдвое выше, чем у биологов
Свежие данные Федерального резервного банка Нью?Йорка показывают: уровень безработицы среди недавних выпускников по компьютерным специальностям в США держится в диапазоне от 6,1% до 7,5%. Это более чем вдвое выше, чем у их сверстников с дипломами по биологии и истории искусства, отмечается в исследовании. Картину подтверждает публикация The New York Times с рассказами...