- Apple продаст до конца года около 5 млн... (454)
- ИИ начал сам проводить научные эксперименты:... (478)
- Создатели Styx: Blades of Greed анонсировали... (467)
- Анализ 800 языковых моделей показал: успех... (338)
- Ferrari готовит 900-сильный гибридный... (333)
- OpenAI вновь откладывает запуск Adult Mode... (320)
- Amazon Zoox начинает тестирование роботакси... (341)
- Nasdaq и Kraken запускают глобальную... (505)
- Google предложила за $3 вернуть в строй... (392)
- Китайские IT-гиганты массово внедряют... (470)
- LandSpace испытала 220-тонный метановый... (380)
- Радиодетектор на Южном полюсе установил... (297)
- Спидраннер наткнулся в Uncharted: Drake's... (397)
- Исследование StormWall: Россия вошла в... (489)
- Дата-центрам Nvidia, Google, Microsoft,... (460)
- Опрос Honor: половина россиян используют... (433)
Google обнаружила: ИИ-агенты лучше сотрудничают, если учатся в среде с непредсказуемыми противниками
Дата: 2026-03-12 17:05
В многоагентных системах, где несколько агентов на базе искусственного интеллекта взаимодействуют в одной среде, часто возникает конкуренция между целями отдельных участников. Это приводит к ситуации, когда каждый агент стремится максимизировать собственную выгоду, что в итоге мешает достижению общего результата. Проблема особенно актуальна для децентрализованных систем, где у каждого агента есть только локальная информация.
Команда Paradigms of Intelligence из Google предложила альтернативу традиционным жёстким алгоритмам координации. Вместо ручного задания правил взаимодействия учёные обучили агентов с помощью метода Predictive Policy Improvement (PPI) в среде с разнообразным пулом противников — как обучающихся, так и статических моделей. Такой подход вынуждает каждого агента адаптироваться к поведению других в реальном времени, используя только историю собственных взаимодействий.
Иллюстрация: Grok В качестве тестовой задачи использовалась дилемма заключённого (Iterated Prisoner's Dilemma, IPD) — классическая модель из теории игр, иллюстрирующая конфликт между индивидуальной выгодой и коллективным результатом. В ходе экспериментов агенты достигли устойчивой кооперации без необходимости жёстко фиксировать роли или закладывать информацию о внутренней логике соперников.
Ключевым элементом методики стало обучение на смешанном наборе противников с разными стратегиями и параметрами. Это позволило агентам выработать универсальные стратегии, устойчивые к появлению новых партнёров и изменению среды. При этом не требовалось увеличивать объём контекстного окна: агенты учились эффективно использовать уже доступную информацию.
В отличие от популярных фреймворков (например, LangGraph), где разработчик вручную задаёт логику переходов и координации, новый подход Google позволяет добиться кооперации с помощью стандартных алгоритмов обучения с подкреплением (например, GRPO). Роль разработчика смещается от «писателя правил» к архитектору среды обучения, где агенты самостоятельно осваивают полезные и безопасные формы взаимодействия.
Авторы отмечают, что их методика масштабируема и вычислительно эффективна для корпоративных многоагентных систем.
Подробнее на iXBT
Предыдущие новости
Федеральное авиационное управление США отказалось от новых правил по космическому мусору
Федеральное авиационное управление США (FAA) отказалось от введения правила, которое обязывало бы коммерческие космические компании удалять ступени ракет с орбиты в течение 25 лет после запуска. Изначально эта мера была предложена в 2023 году при администрации Байдена для борьбы с ростом космического мусора и защиты населения и инфраструктуры. Правило требовало, чтобы компании...
Разработчики Heroes of Might & Magic: Olden Era показали, как улучшили фракцию «Подземелье» после критики игроков
Разработчики из кипрской студии с российскими корнями Unfrozen устроили презентацию обновлённой со времён первого показа фракции «Подземелье» (Dungeon) из тактической стратегии Heroes of Might & Magic: Olden Era. Источник изображений:...
Представлен смартфон iQOO Z11x 5G с процессором Dimensity 7400 Turbo, 50-Мп камерой и батареей на 7200 мА·ч
Компания iQOO представила в Индии новый смартфон серии Z. Новинка iQOO Z11x 5G является преемником прошлогодней модели Z10x 5G. Устройство получило более мощный процессор, а также более ёмкий аккумулятор и другие усовершенствования. Источник изображений:...
«Алису» во всех умных колонках и телевизорах «Яндекса» перевели на передовую ИИ-модель
На умных устройствах «Яндекса» — смарт-колонках серии «Станция» и телевизорах «ТВ Станция» — заработала передовая модель искусственного интеллекта, разработанная компанией. Ранее воспользоваться этой моделью могли только подписчики платной опции «Алиса Плюс». Источник изображений:...