- 1200 долларов за комплект памяти DDR5 32 ГБ.... (452)
- Asus представила геймерские мониторы ROG... (207)
- Илон Маск объяснил, что будет представлять... (319)
- Первую в мире настольную рабочую станцию для... (596)
- Google рассказала, как улучшит... (608)
- Носитель самой малозаметной складки. Авторы... (620)
- Новая статья: Обзор GIGABYTE GAMING A16 PRO:... (589)
- Это очень необычный гибрид мышки и геймпада.... (569)
- Microsoft добавит «режим Xbox» на каждый... (459)
- Xbox Project Helix получит ИИ-генератор... (404)
- Apple очень выгодно заказала у Samsung... (604)
- Valve отвергла обвинения властей Нью-Йорка в... (524)
- Intel представила мечту анонимов — чип... (566)
- Глава AMD Лиза Су впервые в своём статусе... (353)
- Две критические уязвимости Microsoft Office... (427)
- Valve рассказала, как будет проверять игры... (535)
Google обнаружила: ИИ-агенты лучше сотрудничают, если учатся в среде с непредсказуемыми противниками
Дата: 2026-03-12 17:05
В многоагентных системах, где несколько агентов на базе искусственного интеллекта взаимодействуют в одной среде, часто возникает конкуренция между целями отдельных участников. Это приводит к ситуации, когда каждый агент стремится максимизировать собственную выгоду, что в итоге мешает достижению общего результата. Проблема особенно актуальна для децентрализованных систем, где у каждого агента есть только локальная информация.
Команда Paradigms of Intelligence из Google предложила альтернативу традиционным жёстким алгоритмам координации. Вместо ручного задания правил взаимодействия учёные обучили агентов с помощью метода Predictive Policy Improvement (PPI) в среде с разнообразным пулом противников — как обучающихся, так и статических моделей. Такой подход вынуждает каждого агента адаптироваться к поведению других в реальном времени, используя только историю собственных взаимодействий.
Иллюстрация: Grok В качестве тестовой задачи использовалась дилемма заключённого (Iterated Prisoner's Dilemma, IPD) — классическая модель из теории игр, иллюстрирующая конфликт между индивидуальной выгодой и коллективным результатом. В ходе экспериментов агенты достигли устойчивой кооперации без необходимости жёстко фиксировать роли или закладывать информацию о внутренней логике соперников.
Ключевым элементом методики стало обучение на смешанном наборе противников с разными стратегиями и параметрами. Это позволило агентам выработать универсальные стратегии, устойчивые к появлению новых партнёров и изменению среды. При этом не требовалось увеличивать объём контекстного окна: агенты учились эффективно использовать уже доступную информацию.
В отличие от популярных фреймворков (например, LangGraph), где разработчик вручную задаёт логику переходов и координации, новый подход Google позволяет добиться кооперации с помощью стандартных алгоритмов обучения с подкреплением (например, GRPO). Роль разработчика смещается от «писателя правил» к архитектору среды обучения, где агенты самостоятельно осваивают полезные и безопасные формы взаимодействия.
Авторы отмечают, что их методика масштабируема и вычислительно эффективна для корпоративных многоагентных систем.
Подробнее на iXBT
Предыдущие новости
Федеральное авиационное управление США отказалось от новых правил по космическому мусору
Федеральное авиационное управление США (FAA) отказалось от введения правила, которое обязывало бы коммерческие космические компании удалять ступени ракет с орбиты в течение 25 лет после запуска. Изначально эта мера была предложена в 2023 году при администрации Байдена для борьбы с ростом космического мусора и защиты населения и инфраструктуры. Правило требовало, чтобы компании...
Разработчики Heroes of Might & Magic: Olden Era показали, как улучшили фракцию «Подземелье» после критики игроков
Разработчики из кипрской студии с российскими корнями Unfrozen устроили презентацию обновлённой со времён первого показа фракции «Подземелье» (Dungeon) из тактической стратегии Heroes of Might & Magic: Olden Era. Источник изображений:...
Представлен смартфон iQOO Z11x 5G с процессором Dimensity 7400 Turbo, 50-Мп камерой и батареей на 7200 мА·ч
Компания iQOO представила в Индии новый смартфон серии Z. Новинка iQOO Z11x 5G является преемником прошлогодней модели Z10x 5G. Устройство получило более мощный процессор, а также более ёмкий аккумулятор и другие усовершенствования. Источник изображений:...
«Алису» во всех умных колонках и телевизорах «Яндекса» перевели на передовую ИИ-модель
На умных устройствах «Яндекса» — смарт-колонках серии «Станция» и телевизорах «ТВ Станция» — заработала передовая модель искусственного интеллекта, разработанная компанией. Ранее воспользоваться этой моделью могли только подписчики платной опции «Алиса Плюс». Источник изображений:...