- Это надолго: дефицит памяти не ослабнет до... (190)
- JBL представила беспроводные наушники с... (85)
- Возвращение людей к Луне: NASA официально... (214)
- Разборка MacBook Neo показала наличие... (216)
- «Эпоха недорогих ПК пока позади». Авторы IDC... (218)
- Новая статья: Чужого не надо: прокачиваем... (255)
- Американские физики побили 30-летний рекорд... (136)
- V-Color представила набор памяти DDR5 из... (303)
- Из-за проблем со связью москвичи массово... (254)
- Capcom спрятала в Resident Evil Requiem... (282)
- В России запустили проект «Смартфон за... (291)
- Китай закрутил вентиль, Япония и Южная Корея... (471)
- Память DDR5 дорожает, а процессоры,... (419)
- V-Color выпустит антикризисные комплекты... (450)
- Samsung исправила массу ошибок в новой... (417)
- В амбициозный боевик Crimson Desert за... (342)
Google обнаружила: ИИ-агенты лучше сотрудничают, если учатся в среде с непредсказуемыми противниками
Дата: 2026-03-12 17:05
В многоагентных системах, где несколько агентов на базе искусственного интеллекта взаимодействуют в одной среде, часто возникает конкуренция между целями отдельных участников. Это приводит к ситуации, когда каждый агент стремится максимизировать собственную выгоду, что в итоге мешает достижению общего результата. Проблема особенно актуальна для децентрализованных систем, где у каждого агента есть только локальная информация.
Команда Paradigms of Intelligence из Google предложила альтернативу традиционным жёстким алгоритмам координации. Вместо ручного задания правил взаимодействия учёные обучили агентов с помощью метода Predictive Policy Improvement (PPI) в среде с разнообразным пулом противников — как обучающихся, так и статических моделей. Такой подход вынуждает каждого агента адаптироваться к поведению других в реальном времени, используя только историю собственных взаимодействий.
Иллюстрация: Grok В качестве тестовой задачи использовалась дилемма заключённого (Iterated Prisoner's Dilemma, IPD) — классическая модель из теории игр, иллюстрирующая конфликт между индивидуальной выгодой и коллективным результатом. В ходе экспериментов агенты достигли устойчивой кооперации без необходимости жёстко фиксировать роли или закладывать информацию о внутренней логике соперников.
Ключевым элементом методики стало обучение на смешанном наборе противников с разными стратегиями и параметрами. Это позволило агентам выработать универсальные стратегии, устойчивые к появлению новых партнёров и изменению среды. При этом не требовалось увеличивать объём контекстного окна: агенты учились эффективно использовать уже доступную информацию.
В отличие от популярных фреймворков (например, LangGraph), где разработчик вручную задаёт логику переходов и координации, новый подход Google позволяет добиться кооперации с помощью стандартных алгоритмов обучения с подкреплением (например, GRPO). Роль разработчика смещается от «писателя правил» к архитектору среды обучения, где агенты самостоятельно осваивают полезные и безопасные формы взаимодействия.
Авторы отмечают, что их методика масштабируема и вычислительно эффективна для корпоративных многоагентных систем.
Подробнее на iXBT
Предыдущие новости
Федеральное авиационное управление США отказалось от новых правил по космическому мусору
Федеральное авиационное управление США (FAA) отказалось от введения правила, которое обязывало бы коммерческие космические компании удалять ступени ракет с орбиты в течение 25 лет после запуска. Изначально эта мера была предложена в 2023 году при администрации Байдена для борьбы с ростом космического мусора и защиты населения и инфраструктуры. Правило требовало, чтобы компании...
Разработчики Heroes of Might & Magic: Olden Era показали, как улучшили фракцию «Подземелье» после критики игроков
Разработчики из кипрской студии с российскими корнями Unfrozen устроили презентацию обновлённой со времён первого показа фракции «Подземелье» (Dungeon) из тактической стратегии Heroes of Might & Magic: Olden Era. Источник изображений:...
Представлен смартфон iQOO Z11x 5G с процессором Dimensity 7400 Turbo, 50-Мп камерой и батареей на 7200 мА·ч
Компания iQOO представила в Индии новый смартфон серии Z. Новинка iQOO Z11x 5G является преемником прошлогодней модели Z10x 5G. Устройство получило более мощный процессор, а также более ёмкий аккумулятор и другие усовершенствования. Источник изображений:...
«Алису» во всех умных колонках и телевизорах «Яндекса» перевели на передовую ИИ-модель
На умных устройствах «Яндекса» — смарт-колонках серии «Станция» и телевизорах «ТВ Станция» — заработала передовая модель искусственного интеллекта, разработанная компанией. Ранее воспользоваться этой моделью могли только подписчики платной опции «Алиса Плюс». Источник изображений:...