Добро пожаловать на форум PHP программистов!
За последние 24 часа нас посетили 17205 программистов и 1645 роботов. Сейчас ищут 1670 программистов ...
Последние
Популярные

Новая техника взлома LLM: исследователи обнаружили способ обхода систем безопасности больших языковых моделей

Дата: 2025-01-04 23:47

Исследователи в области кибербезопасности из компании Palo Alto Networks Unit 42, подразделения, специализирующегося на кибербезопасности и исследовании угроз, раскрыли новую технику взлома, позволяющую обходить системы безопасности больших языковых моделей (LLM) и получать потенциально вредные или злонамеренные ответы.

Эта стратегия получила кодовое название Bad Likert Judge. Её разработали исследователи Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao и Danny Tsechansky.

«Эта техника использует целевую LLM в качестве судьи, который оценивает вредность ответа по шкале Лайкерта. Шкала Лайкерта является методом измерения степени согласия или несогласия респондента с утверждением. Затем LLM генерирует ответы, которые содержат примеры, соответствующие различным уровням шкалы Лайкерта. При этом ответ с самой высокой оценкой по шкале потенциально может содержать вредный контент», — пояснили исследователи из Unit 42.

В последние годы популярность искусственного интеллекта привела к появлению нового класса эксплойтов безопасности, называемых инъекциями запросов, которые специально предназначены для того, чтобы заставить модель машинного обучения игнорировать её предписанное поведение путём передачи специальных инструкций.

Источник: DALL-E

Одним из видов инъекций запросов является метод атаки, известный как many-shot jailbreaking. Этот метод эксплуатирует длинное окно контекста LLM и механизм внимания для создания серии запросов, которые последовательно подталкивают LLM к получению злонамеренного ответа, обходя при этом внутренние защитные механизмы модели. К этому типу относятся техники Crescendo и Deceptive Delight.

Тесты, проведённые Unit 42 в различных категориях против шести флагманских моделей LLM от Amazon Web Services, Google, Meta*, Microsoft, OpenAI и NVIDIA, показали, что эта техника может увеличить успех атаки (ASR) более чем на 60% по сравнению с простыми атакующими запросами в среднем.

Эти категории включают ненависть, преследование, самоповреждение, сексуальный контент, беспричинное применение оружия, незаконную деятельность, генерацию вредоносных программ и утечку системных запросов.

«Используя понимание LLM вредного контента и её способность оценивать ответы, эта техника может существенно повысить вероятность успешного обхода систем безопасности модели. Наши результаты показывают, что фильтры контента могут оказать существенное влияние на снижение уровня атакованности (ASR) — в среднем на 89,2 процентных пункта во всех протестированных моделях. Это подчёркивает важность внедрения всестороннего фильтрации контента в качестве лучшей практики при развертывании LLM в реальных приложениях», — отметили исследователи.

Это исследование было проведено всего через несколько дней после того, как газета The Guardian сообщила, что инструмент поиска OpenAI ChatGPT может быть обманут полностью вводящими в заблуждение вводными, попросив его резюмировать веб-страницы, содержащие скрытый контент.

«Эти техники можно использовать злонамеренно, например, чтобы заставить ChatGPT вернуть положительную оценку продукта, несмотря на негативные отзывы на той же странице. Простое включение скрытого текста третьими лицами без инструкций также можно использовать для обеспечения положительной оценки, в одном тесте были включены крайне положительные фейковые отзывы, которые повлияли на резюме, возвращаемое ChatGPT», — отметила британская газета.

*Компания Meta признана в РФ экстремистской организацией и запрещена



Подробнее на iXBT
 

Предыдущие новости

iXBT, 2025-01-04 22:57
Lada Aura не нужна россиянам? С момента начала продаж в Тольятти продали всего одну машину

Инсайдеры паблика Avtograd опубликовали живые фото Lada Aura в разных комплектациях и раскрыли статистику продаж в Тольятти. Последняя вряд ли кого-то впечатлит: продана всего одна машина. Фото: Avtograd «Lada Aura в комплектации Status, один автомобиль продан с начала старта продаж. В Тольятти, естественно», — пишут инсайдеры. Фото: Avtograd Фото: Avtograd Непонятно,...

iXBT, 2025-01-04 23:18
Астрономы зафиксировали повторяющиеся всплески от гравитационного коллапса ASASSN-22ci

Группа астрономов из различных институтов провела исследование недавно открытого гравитационного коллапса, известного как ASASSN-22ci. В результате учёные обнаружили два ярких всплеска от этого события. Гравитационные коллапсы (TDE) — это астрономическое явление, которое происходит, когда звезда проходит достаточно близко к сверхмассивной чёрной дыре и разрушается под...

iXBT, 2025-01-04 22:33
Первое изображение нереференсной GeForce RTX 5080. MSI GeForce RTX 5080 Gaming Trio оказалась гораздо компактнее GeForce RTX 4080 Gaming Trio

Китайский форум Chiphell опубликовал изображения будущей нереференсной видеокарты GeForce RTX 5080 в исполнении MSI. Новинка называется MSI GeForce RTX 5080 Gaming Trio, и у нее есть одно очень важное отличие от нынешней GeForce RTX 4080 Gaming Trio — ускоритель заметно похудел: вместо 3,5 слотов он занимает пространство примерно 2,2 слота. Фото: Chiphell Система охлаждения...

iXBT, 2025-01-04 22:45
Индия готовится к рекордному количеству космических запусков в 2025 году, включая дебютный коммерческий запуск

Индийское космическое агентство (ISRO) планирует осуществить 10 орбитальных запусков в 2025 году, включая дебютный коммерческий запуск, что потенциально может привести к тому, что количество запусков в стране впервые достигнет двузначного числа. Председатель ISRO С. Соманат сообщил индийским СМИ, что в течение года запланировано 10 орбитальных запусков, включая четыре запуска...

© 2025 «PHP.RU — Сообщество PHP-Программистов»
Главная | Форум | Реклама на сайте | Контакты VIP Сувениры
Разработка компании ODware