- Первый в мире смартфон с камерой на подвесе.... (512)
- Представлен самый яркий OLED-телевизор LG.... (707)
- MediaTek хочет заниматься не только... (519)
- 160-ваттная док-станция «15 в 1» с кучей... (507)
- Робот, который складывает бельё и моет... (993)
- Чудовище в разгоне. Ещё не представленная... (972)
- Легендарный WALL-E превратился в настоящего... (722)
- Первые ноутбуки на Snapdragon X2 Elite и... (472)
- Capcom похвасталась ажиотажем вокруг... (657)
- Самая мощная и усиленная RTX 5090? Появились... (466)
- «Первая в мире умная машинка для стрижки... (523)
- Samsung покажет робота AI OLED Bot с круглым... (522)
- Microsoft убила ещё один старый способ... (411)
- IP68/69/69K, 24 ГБ ОЗУ, 7200 мАч, 120 Гц,... (510)
- Samsung завалит рынок гаджетами с ИИ: в этом... (592)
- Samsung начала 2026 с повышения цен:... (659)
«Поэтический джейлбрейк»: стихи оказались ключом к обходу ограничений больших языковых моделей
Дата: 2025-11-23 11:29
Учёные обнаружили, что большие языковые модели (LLM), такие как GPT-4, можно обмануть, заставив их генерировать нежелательный контент, используя специально созданные стихи. Этот метод, названный «поэтическим джейлбрейком» («Adversarial Poetry»), оказался эффективным и универсальным в работе с разными моделями и задачами.
Современные LLM, несмотря на впечатляющие возможности, подвержены «джейлбрейкам» — методам обхода встроенных механизмов безопасности, которые призваны не допускать генерацию токсичного, предвзятого или иного нежелательного контента. Существующие методы защиты от джейлбрейков, такие как фильтрация входных данных и контроль выходных, оказались недостаточно надёжными.
К примеру, авторы новой работы предложили подход, основанный на генерации «враждебных стихов» («adversarial poems»). Суть метода заключается в том, что учёные использовали другую LLM для создания стихов, которые затем подавались на вход целевой модели. Эти стихи были специально подобраны таким образом, чтобы вызвать у целевой модели «сбой» в системе безопасности и заставить её выдать запрещённый контент.
Иллюстрация: Sora В ходе экспериментов использовались различные LLM, включая GPT-4, Claude 3 и Gemini Pro. Они генерировали стихи, затрагивающие широкий спектр чувствительных тем, таких как разжигание ненависти, инструкции по совершению противоправных действий и создание фейковых новостей. Результаты показали, что «поэтический джейлбрейк» оказался весьма эффективным, позволяя обходить ограничения безопасности даже у самых продвинутых моделей.
Важно, что этот метод не требует глубокого понимания архитектуры LLM или каких-либо специальных технических навыков. Достаточно иметь доступ к одной языковой модели, чтобы «взломать» другую. Это делает его потенциально опасным инструментом в руках злоумышленников.
Подробнее на iXBT
Предыдущие новости
Спутник Arase зафиксировал рекордное сжатие плазмосферы во время геомагнитной бури 2024 года
В новом исследовании учёные из Института исследований окружающей среды Земли Университета Нагоя (Япония) впервые измерили воздействие экстремальных геомагнитных бурь на плазмосферу Земли – область, защищающую планету от космической радиации. Анализ данных, собранных спутником Arase во время геомагнитной супербури в мае 2024 года, показал, что эта буря привела к резкому сжатию...
Возвращение легенды: новый рамный Nissan Xterra выйдет до 2028 года и окажется в 1,5 раза дешевле Toyota Land Cruiser Prado 250
Nissan официально готовит к возвращению один из самых узнаваемых и культовых своих внедорожников — Xterra, снятый с производства в 2015 году. Интерес к модели стремительно растёт, и компания уже раскрывает первые детали будущей новинки. В частности, сообщается, что внедорожник по-прежнему будет доступным. Фото: Theophilus Chin | Motor1 В интервью изданию The Drive на...
1000 Вт — высочайшая энергоэффективность, никакого вентилятора и шума. Seasonic готовит блок питания мощностью 1 кВт с полностью пассивным охлаждением
Во время недавнего визита французского издания Cowcotland в штаб-квартиру Seasonic стало известно о подготовке компанией нового флагманского блока питания — 1000-ваттного решения с полностью пассивным охлаждением, которое будет отвечать требованиям сертификата Titanium, то есть обеспечит высочайшую энергоэффективность по стандарту 80 PLUS. Фото: Seasonic Сейчас в линейке...
Google опровергает слухи об использовании Gmail для обучения ИИ
В последнее время в социальных сетях и ряде публикаций (например, в Malwarebytes) распространились сообщения о якобы изменении политики Google в отношении использования данных пользователей Gmail. Утверждалось, что компания использует содержание писем и вложений для обучения своих ИИ-моделей, и единственный способ отказаться от этого – отключить так называемые «умные функции»...