- В России на треть снизили расход энергии у... (5468)
- Космонавты приступили к тренировке на... (5913)
- «Если волнение и было, то небольшое. Все... (5906)
- Найдено более 100 новых экзопланет на... (5720)
- SK hynix нужны миллиарды, чтобы не отстать в... (5750)
- SK hynix в этом году намерена выйти на... (5784)
- SpaceX готовится подать документы для IPO на... (6386)
- По 1 доллару за каждый ватт: представлена... (6501)
- OpenAI внезапно закрыла Sora — завоевавший... (6076)
- Apple выпустит отдельное приложение Siri для... (5768)
- В США представлен очень нетипичный смартфон... (6581)
- Огромная батарея 9020 мАч, 90 Вт и 165 Гц в... (5590)
- «Уничтожитель флагманов» с батареей 9000... (9323)
- NASA отказывается от лунной станции Gateway... (6608)
- Sora закрывается: OpenAI сворачивает самый... (6285)
- Новая статья: Обзор мини-ПК MSI Cubi Z AI... (6506)
«Поэтический джейлбрейк»: стихи оказались ключом к обходу ограничений больших языковых моделей
Дата: 2025-11-23 11:29
Учёные обнаружили, что большие языковые модели (LLM), такие как GPT-4, можно обмануть, заставив их генерировать нежелательный контент, используя специально созданные стихи. Этот метод, названный «поэтическим джейлбрейком» («Adversarial Poetry»), оказался эффективным и универсальным в работе с разными моделями и задачами.
Современные LLM, несмотря на впечатляющие возможности, подвержены «джейлбрейкам» — методам обхода встроенных механизмов безопасности, которые призваны не допускать генерацию токсичного, предвзятого или иного нежелательного контента. Существующие методы защиты от джейлбрейков, такие как фильтрация входных данных и контроль выходных, оказались недостаточно надёжными.
К примеру, авторы новой работы предложили подход, основанный на генерации «враждебных стихов» («adversarial poems»). Суть метода заключается в том, что учёные использовали другую LLM для создания стихов, которые затем подавались на вход целевой модели. Эти стихи были специально подобраны таким образом, чтобы вызвать у целевой модели «сбой» в системе безопасности и заставить её выдать запрещённый контент.
Иллюстрация: Sora В ходе экспериментов использовались различные LLM, включая GPT-4, Claude 3 и Gemini Pro. Они генерировали стихи, затрагивающие широкий спектр чувствительных тем, таких как разжигание ненависти, инструкции по совершению противоправных действий и создание фейковых новостей. Результаты показали, что «поэтический джейлбрейк» оказался весьма эффективным, позволяя обходить ограничения безопасности даже у самых продвинутых моделей.
Важно, что этот метод не требует глубокого понимания архитектуры LLM или каких-либо специальных технических навыков. Достаточно иметь доступ к одной языковой модели, чтобы «взломать» другую. Это делает его потенциально опасным инструментом в руках злоумышленников.
Подробнее на iXBT
Предыдущие новости
Спутник Arase зафиксировал рекордное сжатие плазмосферы во время геомагнитной бури 2024 года
В новом исследовании учёные из Института исследований окружающей среды Земли Университета Нагоя (Япония) впервые измерили воздействие экстремальных геомагнитных бурь на плазмосферу Земли – область, защищающую планету от космической радиации. Анализ данных, собранных спутником Arase во время геомагнитной супербури в мае 2024 года, показал, что эта буря привела к резкому сжатию...
Возвращение легенды: новый рамный Nissan Xterra выйдет до 2028 года и окажется в 1,5 раза дешевле Toyota Land Cruiser Prado 250
Nissan официально готовит к возвращению один из самых узнаваемых и культовых своих внедорожников — Xterra, снятый с производства в 2015 году. Интерес к модели стремительно растёт, и компания уже раскрывает первые детали будущей новинки. В частности, сообщается, что внедорожник по-прежнему будет доступным. Фото: Theophilus Chin | Motor1 В интервью изданию The Drive на...
1000 Вт — высочайшая энергоэффективность, никакого вентилятора и шума. Seasonic готовит блок питания мощностью 1 кВт с полностью пассивным охлаждением
Во время недавнего визита французского издания Cowcotland в штаб-квартиру Seasonic стало известно о подготовке компанией нового флагманского блока питания — 1000-ваттного решения с полностью пассивным охлаждением, которое будет отвечать требованиям сертификата Titanium, то есть обеспечит высочайшую энергоэффективность по стандарту 80 PLUS. Фото: Seasonic Сейчас в линейке...
Google опровергает слухи об использовании Gmail для обучения ИИ
В последнее время в социальных сетях и ряде публикаций (например, в Malwarebytes) распространились сообщения о якобы изменении политики Google в отношении использования данных пользователей Gmail. Утверждалось, что компания использует содержание писем и вложений для обучения своих ИИ-моделей, и единственный способ отказаться от этого – отключить так называемые «умные функции»...