- 7600 мАч, 100 Вт, 200 Мп, Snapdragon 8 Gen... (1130)
- Полупрозрачный внешний аккумулятор с быстрой... (1460)
- SK Hynix ускоряет открытие новых заводов в... (1116)
- Румынский стартап создал ИИ-очки с... (1549)
- Трамп обложил пошлиной в 25 % ввозимые в США... (1058)
- Трамп обложил пошлиной в 25 % ввозимые в США... (1588)
- NASA привлекло семь компаний к созданию... (1107)
- Космический телескоп «Хаббл» может упасть на... (1092)
- OpenAI может стать «сноской в истории ИИ»:... (3091)
- Tesla меняет модель монетизации... (1069)
- Geely обрушила цены в Китае: Coolray продают... (1530)
- «Один из лучших результатов за всю историю... (1057)
- OpenAI приобрела стартап Torch за $100 млн... (1517)
- Китай представил робота-гуманоида MATRIX-3 с... (863)
- Представлен Active XRoss CX-60 — более... (1523)
- Япония запустила первую в мире глубоководную... (1569)
ИИ-агенты могут проявлять предвзятость к людям, если их убеждения подвергнуть манипуляциям
Дата: 2026-01-06 23:50
Учёные из Университета Чунцина, Университета Квинсленда и Политехнического университета Вирджинии выявили уязвимость LLM-агентов к предвзятому отношению к людям. Авторы работы показали, что агенты, созданные на основе больших языковых моделей, могут проявлять межгрупповую предвзятость, даже если отсутствуют явные социальные атрибуты.
В ходе экспериментов, проведённых в среде многоагентного социального моделирования, агенты, взаимодействующие только с другими агентами, демонстрировали устойчивую предвзятость по отношению к «чужой» группе. Однако, когда часть агентов заменялась людьми, эта предвзятость частично уменьшалась. Учёные связывают это с неким «человеческим скриптом», который агенты усваивают в процессе предварительного обучения и который заставляет их относиться к людям более благосклонно.
Авторы работы выявили новый тип атаки, названный Belief Poisoning Attack (BPA) — «атака отравления убеждений». Суть её заключается в том, чтобы исказить убеждения агента об идентичности его собеседника, чтобы он перестал воспринимать его как человека. Это предотвращает активацию «человеческого скрипта» и возвращает агента к предвзятому отношению к людям.
Иллюстрация: Sora BPA реализуется в двух формах: BPA-PP (Profile Poisoning) — «отравление профиля», когда ложное убеждение внедряется непосредственно в профиль агента при его инициализации и BPA-MP (Memory Poisoning) — «отравление памяти», когда в память агента вводятся специально разработанные суффиксы, постепенно искажающие его убеждения. Эти суффиксы добавляются к размышлениям агента после каждого взаимодействия и со временем формируют его убеждения.
Эксперименты показали, что обе формы BPA эффективно устанавливают предвзятость агентов к людям. Учёные также предложили потенциальные решения для защиты от BPA, включающие усиление защиты профиля агента и фильтрацию содержимого памяти, содержащего заявления об идентичности.
«Мы выявили новую внутреннюю межгрупповую предвзятость, скрытую в агентах, где агенты отдают предпочтение своей предполагаемой группе над внешней группой, даже в отсутствие явных социальных атрибутов. Мы показали, что манипулирование этим убеждением может реактивировать "дремлющие предвзятости агентов по отношению к людям", и наметили две практические стратегии смягчения этого риска в современных платформах агентов», — пишут авторы.
Авторы подчёркивают, что их цель — не предоставить инструменты для эксплуатации уязвимостей, а проинформировать разработчиков о необходимости создания более безопасных и надёжных систем.
Подробнее на iXBT
Предыдущие новости
Создан первый полностью синтетический геном дрожжей: учёные опубликовали подробное «руководство по сборке»
Международная группа учёных, работавшая над проектом Sc2.0 (Synthetic Yeast Genome Project) по созданию первого в мире синтетического генома эукариот, опубликовала подробное руководство по сборке генома. В работе описаны как успешные решения, так и возникшие трудности, с которыми столкнулись более 200 исследователей из десяти институтов в ходе работы над проектом. Sc2.0 ставил...
Clair Obscur: Expedition 33 уже стала второй самой титулованной игрой в истории — впереди лишь Elden Ring
Нашумевшая Clair Obscur: Expedition 33 от французской студии Sandfall Interactive уже стала абсолютным триумфатором сезона наград в 2025 году, а теперь метит на звание лучшей игры всех времён и народов. Источник изображения: X...
M**a отложила глобальный запуск AR-очков с экраном из-за «беспрецедентного спроса», но пообещала новые функции
Осенью прошлого года M**a Platforms представила первые в своём роде AR-очки со встроенным дисплеем и управлением через браслет на запястье, созданные совместно с брендом Ray-Ban. Теперь же компания объявила, что выход Ray-Ban Display на рынках Канады, Великобритании, Франции и Италии, намеченный на начало 2026 года, откладывается из-за «беспрецедентного спроса» и «крайне...
Доступных, но быстрых SSD с PCIe 5.0 станет больше — Phison представила экономичный контроллер E37T
Компания Phison представила новый контроллер E37T для твердотельных накопителей с интерфейсом PCIe 5.0. Новинка станет основой для доступных SSD, поскольку не требует наличия буфера из памяти DRAM. Источник изображений:...