- NASA отложила Artemis III на конец 2027 года... (3109)
- Google разрешила военным США использовать... (4147)
- Игры на PS4 и PS5 перестанут запускаться без... (1848)
- «Сбер» представил ИИ-генератор картинок... (1793)
- Google превратила поиск на YouTube в диалог... (1548)
- Microsoft запускает K2 — экстренный план по... (1742)
- Valve отложила запуск Steam Machine и Steam... (2071)
- Valve подтвердила, что «усердно работает»... (1891)
- OpenAI опубликовала новые «основополагающие... (1600)
- Kingston выпустила SSD серии DC3000ME... (2061)
- Resident Evil Requiem продаётся так хорошо,... (1933)
- Певица Тейлор Свифт взялась защитить от ИИ... (2401)
- Электрическое аэротакси впервые слетало из... (2431)
- Китайская BYD подтвердила, что хочет... (1696)
- Steam Controller оказалось легко разобрать и... (2563)
- Это нормально: Ubisoft отреагировала на... (1891)
Google обнаружила: ИИ-агенты лучше сотрудничают, если учатся в среде с непредсказуемыми противниками
Дата: 2026-03-12 17:05
В многоагентных системах, где несколько агентов на базе искусственного интеллекта взаимодействуют в одной среде, часто возникает конкуренция между целями отдельных участников. Это приводит к ситуации, когда каждый агент стремится максимизировать собственную выгоду, что в итоге мешает достижению общего результата. Проблема особенно актуальна для децентрализованных систем, где у каждого агента есть только локальная информация.
Команда Paradigms of Intelligence из Google предложила альтернативу традиционным жёстким алгоритмам координации. Вместо ручного задания правил взаимодействия учёные обучили агентов с помощью метода Predictive Policy Improvement (PPI) в среде с разнообразным пулом противников — как обучающихся, так и статических моделей. Такой подход вынуждает каждого агента адаптироваться к поведению других в реальном времени, используя только историю собственных взаимодействий.
Иллюстрация: Grok В качестве тестовой задачи использовалась дилемма заключённого (Iterated Prisoner's Dilemma, IPD) — классическая модель из теории игр, иллюстрирующая конфликт между индивидуальной выгодой и коллективным результатом. В ходе экспериментов агенты достигли устойчивой кооперации без необходимости жёстко фиксировать роли или закладывать информацию о внутренней логике соперников.
Ключевым элементом методики стало обучение на смешанном наборе противников с разными стратегиями и параметрами. Это позволило агентам выработать универсальные стратегии, устойчивые к появлению новых партнёров и изменению среды. При этом не требовалось увеличивать объём контекстного окна: агенты учились эффективно использовать уже доступную информацию.
В отличие от популярных фреймворков (например, LangGraph), где разработчик вручную задаёт логику переходов и координации, новый подход Google позволяет добиться кооперации с помощью стандартных алгоритмов обучения с подкреплением (например, GRPO). Роль разработчика смещается от «писателя правил» к архитектору среды обучения, где агенты самостоятельно осваивают полезные и безопасные формы взаимодействия.
Авторы отмечают, что их методика масштабируема и вычислительно эффективна для корпоративных многоагентных систем.
Подробнее на iXBT
Предыдущие новости
Федеральное авиационное управление США отказалось от новых правил по космическому мусору
Федеральное авиационное управление США (FAA) отказалось от введения правила, которое обязывало бы коммерческие космические компании удалять ступени ракет с орбиты в течение 25 лет после запуска. Изначально эта мера была предложена в 2023 году при администрации Байдена для борьбы с ростом космического мусора и защиты населения и инфраструктуры. Правило требовало, чтобы компании...
Разработчики Heroes of Might & Magic: Olden Era показали, как улучшили фракцию «Подземелье» после критики игроков
Разработчики из кипрской студии с российскими корнями Unfrozen устроили презентацию обновлённой со времён первого показа фракции «Подземелье» (Dungeon) из тактической стратегии Heroes of Might & Magic: Olden Era. Источник изображений:...
Представлен смартфон iQOO Z11x 5G с процессором Dimensity 7400 Turbo, 50-Мп камерой и батареей на 7200 мА·ч
Компания iQOO представила в Индии новый смартфон серии Z. Новинка iQOO Z11x 5G является преемником прошлогодней модели Z10x 5G. Устройство получило более мощный процессор, а также более ёмкий аккумулятор и другие усовершенствования. Источник изображений:...
«Алису» во всех умных колонках и телевизорах «Яндекса» перевели на передовую ИИ-модель
На умных устройствах «Яндекса» — смарт-колонках серии «Станция» и телевизорах «ТВ Станция» — заработала передовая модель искусственного интеллекта, разработанная компанией. Ранее воспользоваться этой моделью могли только подписчики платной опции «Алиса Плюс». Источник изображений:...