- Интернет появится там, где его никогда не... (6076)
- На компьютерах Huawei с HarmonyOS теперь... (5649)
- Лучший в мире камерофон Huawei Pura 80... (5976)
- Создатели Garry’s Mod подтвердили дату... (5829)
- Самая большая батарея в истории... (5521)
- Intel увеличит свою долю в капитале... (5308)
- Huawei вернулась не только на рынок... (5517)
- Представлен новейший отпариватель для одежды... (5532)
- Представлена камера наблюдения Xiaomi с... (5570)
- Новый смартфон Samsung показал возможности... (6059)
- Топовая SoC Snapdragon 8 Elite Gen 6 Pro... (6379)
- Отечественный кроссовер Lada Azimut... (5058)
- Названы самые популярные умные колонки в... (5219)
- Планшет Apple iPad Air 3 Wi-Fi перешёл в... (5693)
- Топовый камерофон Oppo Find X9 Ultra... (5033)
- В этом месяце SpaceX устроит аналитикам... (5498)
«Поэтический джейлбрейк»: стихи оказались ключом к обходу ограничений больших языковых моделей
Дата: 2025-11-23 11:29
Учёные обнаружили, что большие языковые модели (LLM), такие как GPT-4, можно обмануть, заставив их генерировать нежелательный контент, используя специально созданные стихи. Этот метод, названный «поэтическим джейлбрейком» («Adversarial Poetry»), оказался эффективным и универсальным в работе с разными моделями и задачами.
Современные LLM, несмотря на впечатляющие возможности, подвержены «джейлбрейкам» — методам обхода встроенных механизмов безопасности, которые призваны не допускать генерацию токсичного, предвзятого или иного нежелательного контента. Существующие методы защиты от джейлбрейков, такие как фильтрация входных данных и контроль выходных, оказались недостаточно надёжными.
К примеру, авторы новой работы предложили подход, основанный на генерации «враждебных стихов» («adversarial poems»). Суть метода заключается в том, что учёные использовали другую LLM для создания стихов, которые затем подавались на вход целевой модели. Эти стихи были специально подобраны таким образом, чтобы вызвать у целевой модели «сбой» в системе безопасности и заставить её выдать запрещённый контент.
Иллюстрация: Sora В ходе экспериментов использовались различные LLM, включая GPT-4, Claude 3 и Gemini Pro. Они генерировали стихи, затрагивающие широкий спектр чувствительных тем, таких как разжигание ненависти, инструкции по совершению противоправных действий и создание фейковых новостей. Результаты показали, что «поэтический джейлбрейк» оказался весьма эффективным, позволяя обходить ограничения безопасности даже у самых продвинутых моделей.
Важно, что этот метод не требует глубокого понимания архитектуры LLM или каких-либо специальных технических навыков. Достаточно иметь доступ к одной языковой модели, чтобы «взломать» другую. Это делает его потенциально опасным инструментом в руках злоумышленников.
Подробнее на iXBT
Предыдущие новости
Спутник Arase зафиксировал рекордное сжатие плазмосферы во время геомагнитной бури 2024 года
В новом исследовании учёные из Института исследований окружающей среды Земли Университета Нагоя (Япония) впервые измерили воздействие экстремальных геомагнитных бурь на плазмосферу Земли – область, защищающую планету от космической радиации. Анализ данных, собранных спутником Arase во время геомагнитной супербури в мае 2024 года, показал, что эта буря привела к резкому сжатию...
Возвращение легенды: новый рамный Nissan Xterra выйдет до 2028 года и окажется в 1,5 раза дешевле Toyota Land Cruiser Prado 250
Nissan официально готовит к возвращению один из самых узнаваемых и культовых своих внедорожников — Xterra, снятый с производства в 2015 году. Интерес к модели стремительно растёт, и компания уже раскрывает первые детали будущей новинки. В частности, сообщается, что внедорожник по-прежнему будет доступным. Фото: Theophilus Chin | Motor1 В интервью изданию The Drive на...
1000 Вт — высочайшая энергоэффективность, никакого вентилятора и шума. Seasonic готовит блок питания мощностью 1 кВт с полностью пассивным охлаждением
Во время недавнего визита французского издания Cowcotland в штаб-квартиру Seasonic стало известно о подготовке компанией нового флагманского блока питания — 1000-ваттного решения с полностью пассивным охлаждением, которое будет отвечать требованиям сертификата Titanium, то есть обеспечит высочайшую энергоэффективность по стандарту 80 PLUS. Фото: Seasonic Сейчас в линейке...
Google опровергает слухи об использовании Gmail для обучения ИИ
В последнее время в социальных сетях и ряде публикаций (например, в Malwarebytes) распространились сообщения о якобы изменении политики Google в отношении использования данных пользователей Gmail. Утверждалось, что компания использует содержание писем и вложений для обучения своих ИИ-моделей, и единственный способ отказаться от этого – отключить так называемые «умные функции»...