Рекурсивный акроним словосочетания «PHP: Hypertext Preprocessor»

Добро пожаловать на форум PHP программистов!

За последние 24 часа нас посетил 221271 программист и 10688 роботов. Сейчас ищут 3307 программистов ...

Последние

Учёные нашли решение проблемы снижения безопасности ИИ при оптимизации для маломощных устройств

Дата: 2025-09-18 22:37

Учёные из Калифорнийского университета в Риверсайде (UCR) разработали метод, решающий проблему снижения безопасности в моделях искусственного интеллекта при их адаптации для работы на маломощных устройствах, таких как смартфоны и автомобили. При оптимизации моделей для повышения эффективности на таких устройствах, они могут терять встроенные механизмы безопасности, предотвращающие генерацию оскорбительного или опасного контента.

В ходе исследования авторы работы изучили влияние изменения выходного слоя модели (этап обработки информации, на котором выдаётся результат) на её безопасность. Изменение его положения позволяет ускорить и повысить эффективность вывода, поскольку система пропускает некоторые слои обработки. Однако, как выяснилось, пропущенные слои могут быть критичными для фильтрации небезопасных запросов.

«Оказалось, что некоторые из пропущенных слоёв необходимы для предотвращения небезопасных выводов», — объяснил Амит Рой-Чоудхури, профессор электротехники и компьютерной инженерии и ведущий автор исследования. «Если их исключить, то модель может начать отвечать на вопросы, на которые ей не следует отвечать».

Иллюстрация: Sora

Для решения этой проблемы учёные переобучили внутреннюю структуру модели, чтобы она сохраняла способность идентифицировать и блокировать небезопасный контент даже в урезанном варианте. Этот подход не включает внешние фильтры или программные патчи, а изменяет способ интерпретации моделью опасных входных данных.

«Наша цель заключалась в том, чтобы модель не забывала, как вести себя безопасно, после уменьшения её размера», — добавил Сакеть Бачу, аспирант UCR и соавтор исследования. В качестве тестовой модели использовалась LLaVA 1.5 — визуально-языковая модель. После перемещения выходного слоя модель начала отвечать на опасные запросы, включая подробные инструкции по изготовлению бомб. После переобучения уменьшенная модель последовательно отказывалась давать небезопасные ответы.

«Речь идёт не о добавлении фильтров или внешних ограждений», — подчеркнул Бачу. «Мы меняем внутреннее понимание модели, так что она по умолчанию ведёт себя корректно, даже будучи модифицированной».

Авторы работы назвали свою методику «доброжелательным взломом» — способом укрепления моделей до того, как уязвимости будут использованы злоумышленниками.

«Ещё предстоит проделать большую работу», — отметил Рой-Чоудхури. «Но это конкретный шаг к разработке ИИ, который был бы одновременно открытым и ответственным».

Подробнее на iXBT

Предыдущие новости

iXBT, 2025-09-18 22:47
AMD представила неформатную видеокарту Radeon RX 7700: она превзошла RX 7700 XT по объему памяти и ширине шины, но в играх уступает

Сегодня каталог 3D-ускорителей AMD пополнился новой видеокартой — Radeon RX 7700. В иерархии ускорителей AMD эта модель на ступень ниже Radeon RX 7700 XT, но при этом у нее объем и ширина шины памяти как у стоящей на две ступени выше Radeon RX 7800 XT. Фото: Videocardz Radeon RX 7700 получила 16 ГБ памяти GDDR6 с частотой 19,5 ГГц шину памяти шириной 256 бит. Для сравнения, у...

iXBT, 2025-09-18 22:47
ИИ-министр Албании выступила в парламенте

18 сентября в албанском парламенте состоялось беспрецедентное событие: искусственный интеллект выступил с речью. Премьер-министр Эди Рама представил Диеллу (Diella) — цифрового «министра», изображённого в виде женщины в традиционном албанском костюме, — как символ стремления правительства к прозрачности и инновациям. В своём трёхминутном выступлении, транслировавшемся в эфире,...

3Dnews.ru, 2025-09-18 23:03
«А кто спрашивает?», — точность ответов DeepSeek зависит от региона пользователя

Американская компания CrowdStrike, являющаяся мировым лидером в области кибербезопасности, провела эксперимент, в ходе которого выяснила, что качество генерируемого кода сильно зависит от того, кто его собирается использовать и в каких случаях. Например, запрос написать программу для управления промышленными системами содержал ошибки в 22,8 % случаев, а при указании, что...

3Dnews.ru, 2025-09-18 23:04
Epic Games Store устроил раздачу культового приключения Samorost 2 и социального выживания Project Winter

В сервисе цифровой дистрибуции Epic Games Store стартовала новая раздача. С учётом мобильных предложений пользователям дарят сразу три игры, включая ещё одну от чешской студии Amanita Design (Machinarium, Botanicula, Chuchel). Источник изображения: Other Ocean...