- Даже iPhone 16e продавался лучше любого... (905)
- ПК Steam Machine не поддерживает HDMI 2.1.... (907)
- 60 000 ТБ в объёме 1 литра. Представлено... (800)
- Весь современный мир искусственного... (870)
- Сколько осталось до появления полноценных... (841)
- Настоящие «кибернаушники». Nubia представила... (741)
- Теперь лучший iGPU в классе точно у Intel.... (784)
- В Сколково открылся первый в России кластер... (714)
- В тестах засветился Core Ultra 5 332 всего с... (935)
- Китай почти догнал США в важнейших научных... (772)
- Первая игровая приставка на Core Ultra 300.... (747)
- Microsoft хочет свой идеальный ИИ-чип:... (820)
- Windows 11 теперь прямо пишет, что 8 ГБ... (740)
- «Новый DeepSeek-момент»: первый в мире... (771)
- Марк Цукерберг лично развозил домашний суп... (811)
- Банк России не будет создавать отдельное... (863)
«Поэтический джейлбрейк»: стихи оказались ключом к обходу ограничений больших языковых моделей
Дата: 2025-11-23 11:29
Учёные обнаружили, что большие языковые модели (LLM), такие как GPT-4, можно обмануть, заставив их генерировать нежелательный контент, используя специально созданные стихи. Этот метод, названный «поэтическим джейлбрейком» («Adversarial Poetry»), оказался эффективным и универсальным в работе с разными моделями и задачами.
Современные LLM, несмотря на впечатляющие возможности, подвержены «джейлбрейкам» — методам обхода встроенных механизмов безопасности, которые призваны не допускать генерацию токсичного, предвзятого или иного нежелательного контента. Существующие методы защиты от джейлбрейков, такие как фильтрация входных данных и контроль выходных, оказались недостаточно надёжными.
К примеру, авторы новой работы предложили подход, основанный на генерации «враждебных стихов» («adversarial poems»). Суть метода заключается в том, что учёные использовали другую LLM для создания стихов, которые затем подавались на вход целевой модели. Эти стихи были специально подобраны таким образом, чтобы вызвать у целевой модели «сбой» в системе безопасности и заставить её выдать запрещённый контент.
Иллюстрация: Sora В ходе экспериментов использовались различные LLM, включая GPT-4, Claude 3 и Gemini Pro. Они генерировали стихи, затрагивающие широкий спектр чувствительных тем, таких как разжигание ненависти, инструкции по совершению противоправных действий и создание фейковых новостей. Результаты показали, что «поэтический джейлбрейк» оказался весьма эффективным, позволяя обходить ограничения безопасности даже у самых продвинутых моделей.
Важно, что этот метод не требует глубокого понимания архитектуры LLM или каких-либо специальных технических навыков. Достаточно иметь доступ к одной языковой модели, чтобы «взломать» другую. Это делает его потенциально опасным инструментом в руках злоумышленников.
Подробнее на iXBT
Предыдущие новости
Спутник Arase зафиксировал рекордное сжатие плазмосферы во время геомагнитной бури 2024 года
В новом исследовании учёные из Института исследований окружающей среды Земли Университета Нагоя (Япония) впервые измерили воздействие экстремальных геомагнитных бурь на плазмосферу Земли – область, защищающую планету от космической радиации. Анализ данных, собранных спутником Arase во время геомагнитной супербури в мае 2024 года, показал, что эта буря привела к резкому сжатию...
Возвращение легенды: новый рамный Nissan Xterra выйдет до 2028 года и окажется в 1,5 раза дешевле Toyota Land Cruiser Prado 250
Nissan официально готовит к возвращению один из самых узнаваемых и культовых своих внедорожников — Xterra, снятый с производства в 2015 году. Интерес к модели стремительно растёт, и компания уже раскрывает первые детали будущей новинки. В частности, сообщается, что внедорожник по-прежнему будет доступным. Фото: Theophilus Chin | Motor1 В интервью изданию The Drive на...
1000 Вт — высочайшая энергоэффективность, никакого вентилятора и шума. Seasonic готовит блок питания мощностью 1 кВт с полностью пассивным охлаждением
Во время недавнего визита французского издания Cowcotland в штаб-квартиру Seasonic стало известно о подготовке компанией нового флагманского блока питания — 1000-ваттного решения с полностью пассивным охлаждением, которое будет отвечать требованиям сертификата Titanium, то есть обеспечит высочайшую энергоэффективность по стандарту 80 PLUS. Фото: Seasonic Сейчас в линейке...
Google опровергает слухи об использовании Gmail для обучения ИИ
В последнее время в социальных сетях и ряде публикаций (например, в Malwarebytes) распространились сообщения о якобы изменении политики Google в отношении использования данных пользователей Gmail. Утверждалось, что компания использует содержание писем и вложений для обучения своих ИИ-моделей, и единственный способ отказаться от этого – отключить так называемые «умные функции»...