- OneXPlayer представила внешнюю видеокарту... (1530)
- В России начинают штрафовать за тонировку на... (1562)
- Продажи Detroit: Become Human превысили 15... (1831)
- Intel готовит процессоры Core G3 на базе... (1553)
- Samsung и Intel нашли способ повысить... (1648)
- «Это не экстренная эвакуация». NASA... (1591)
- Новый самый мощный суперкомпьютер в мире —... (1558)
- Аксессуары для Samsung Galaxy S26 Ultra уже... (1472)
- Гигантское устройство Tab 17 Pro Max в стиле... (1477)
- Инсайдер показал финальный дизайн Samsung... (1433)
- Взрыв на невидимой стороне Солнца:... (1542)
- В США начнут выпускать Zeekr и Lynk & Co?... (1690)
- 10 080 мАч, 80 Вт, IP69K и Mediatek... (1460)
- Новейший внедорожник Kia Telluride 2027... (1496)
- Еще один аналог Volkswagen Jetta от самой... (1383)
- Вторая жизнь Land Cruiser Prado 150: Toyota... (1642)
«Поэтический джейлбрейк»: стихи оказались ключом к обходу ограничений больших языковых моделей
Дата: 2025-11-23 11:29
Учёные обнаружили, что большие языковые модели (LLM), такие как GPT-4, можно обмануть, заставив их генерировать нежелательный контент, используя специально созданные стихи. Этот метод, названный «поэтическим джейлбрейком» («Adversarial Poetry»), оказался эффективным и универсальным в работе с разными моделями и задачами.
Современные LLM, несмотря на впечатляющие возможности, подвержены «джейлбрейкам» — методам обхода встроенных механизмов безопасности, которые призваны не допускать генерацию токсичного, предвзятого или иного нежелательного контента. Существующие методы защиты от джейлбрейков, такие как фильтрация входных данных и контроль выходных, оказались недостаточно надёжными.
К примеру, авторы новой работы предложили подход, основанный на генерации «враждебных стихов» («adversarial poems»). Суть метода заключается в том, что учёные использовали другую LLM для создания стихов, которые затем подавались на вход целевой модели. Эти стихи были специально подобраны таким образом, чтобы вызвать у целевой модели «сбой» в системе безопасности и заставить её выдать запрещённый контент.
Иллюстрация: Sora В ходе экспериментов использовались различные LLM, включая GPT-4, Claude 3 и Gemini Pro. Они генерировали стихи, затрагивающие широкий спектр чувствительных тем, таких как разжигание ненависти, инструкции по совершению противоправных действий и создание фейковых новостей. Результаты показали, что «поэтический джейлбрейк» оказался весьма эффективным, позволяя обходить ограничения безопасности даже у самых продвинутых моделей.
Важно, что этот метод не требует глубокого понимания архитектуры LLM или каких-либо специальных технических навыков. Достаточно иметь доступ к одной языковой модели, чтобы «взломать» другую. Это делает его потенциально опасным инструментом в руках злоумышленников.
Подробнее на iXBT
Предыдущие новости
Спутник Arase зафиксировал рекордное сжатие плазмосферы во время геомагнитной бури 2024 года
В новом исследовании учёные из Института исследований окружающей среды Земли Университета Нагоя (Япония) впервые измерили воздействие экстремальных геомагнитных бурь на плазмосферу Земли – область, защищающую планету от космической радиации. Анализ данных, собранных спутником Arase во время геомагнитной супербури в мае 2024 года, показал, что эта буря привела к резкому сжатию...
Возвращение легенды: новый рамный Nissan Xterra выйдет до 2028 года и окажется в 1,5 раза дешевле Toyota Land Cruiser Prado 250
Nissan официально готовит к возвращению один из самых узнаваемых и культовых своих внедорожников — Xterra, снятый с производства в 2015 году. Интерес к модели стремительно растёт, и компания уже раскрывает первые детали будущей новинки. В частности, сообщается, что внедорожник по-прежнему будет доступным. Фото: Theophilus Chin | Motor1 В интервью изданию The Drive на...
1000 Вт — высочайшая энергоэффективность, никакого вентилятора и шума. Seasonic готовит блок питания мощностью 1 кВт с полностью пассивным охлаждением
Во время недавнего визита французского издания Cowcotland в штаб-квартиру Seasonic стало известно о подготовке компанией нового флагманского блока питания — 1000-ваттного решения с полностью пассивным охлаждением, которое будет отвечать требованиям сертификата Titanium, то есть обеспечит высочайшую энергоэффективность по стандарту 80 PLUS. Фото: Seasonic Сейчас в линейке...
Google опровергает слухи об использовании Gmail для обучения ИИ
В последнее время в социальных сетях и ряде публикаций (например, в Malwarebytes) распространились сообщения о якобы изменении политики Google в отношении использования данных пользователей Gmail. Утверждалось, что компания использует содержание писем и вложений для обучения своих ИИ-моделей, и единственный способ отказаться от этого – отключить так называемые «умные функции»...