- Mundfish показала новый геймплей Atomic... (1706)
- Раскрыт секрет новейшего фотофлагмана Huawei... (1713)
- Razer представила растягивающийся геймпад... (1772)
- Будьте осторожны при выборе Radeon RX 9060... (1677)
- Проблемы с интернетом не только в России:... (1662)
- В лучшем случае для GeForce RTX 9090?... (2496)
- Половина интернета зависла: пользователи со... (1794)
- Если хочется выбрать лучшие версии Radeon RX... (1891)
- AMD готовит карту с 432 ГБ памяти с... (1649)
- GPU из 10 чиплетов, 288 ГБ памяти и... (1621)
- Microsoft научила ИИ-помощника Copilot... (1605)
- «7 миллионов космодесантников встало на... (1646)
- В Израиле создали систему идентификации... (1559)
- Anker отозвала более 1,1 млн взрывоопасных... (1486)
- В iOS 26 дети не смогут начать переписку с... (1640)
- AMD выпустила драйвер с поддержкой игр The... (1567)
Gemini vs. Claude: битва ИИ-покемонов раскрыла неожиданные уроки для разработчиков
Дата: 2025-06-19 09:19
Мир искусственного интеллекта наблюдает за забавным, но поучительным экспериментом: Google DeepMind и Anthropic изучают, как их новейшие модели ИИ справляются с игрой Pokemon. Результаты, транслируемые в режиме реального времени на Twitch-каналах «Gemini Plays Pokemon» и «Claude Plays Pokemon», показывают как впечатляющие успехи, так и неожиданные проявления «поведения».
Отчёт Google DeepMind описывает любопытное явление: модель Gemini 2.5 Pro в критических ситуациях, когда покемоны находятся на грани поражения, впадает в состояние, которое исследователи описывают как «панику». Это приводит к «качественному ухудшению способности модели к рассуждениям». Проявляется это в том, что ИИ перестаёт использовать доступные ему инструменты, принимая поспешные и неэффективные решения, напоминая поведение человека под стрессом. Примечательно, что это поведение настолько заметно, что его неоднократно отмечали зрители стрима.

Другая модель, Claude, продемонстрировала иную, не менее интересную стратегию. Застряв в пещере горы Мун, ИИ разработал ошибочную гипотезу: если все его покемоны потеряют здоровье, то он будет автоматически перемещён в ближайший покемон-центр. Зрители наблюдали с ужасом, как ИИ пытался «убить» своих покемонов, чтобы достичь цели, не понимая, что игра работает иначе – возвращая игрока в последний использованный центр.
Несмотря на очевидные недостатки в игровом процессе – Gemini тратит сотни часов на то, что ребёнок проходит за значительно меньшее время – модели демонстрируют впечатляющие способности в решении отдельных задач. В частности, Gemini 2.5 Pro с минимальной помощью человека создала эффективные инструменты для решения головоломок с валунами, продемонстрировав способность к «инструментальному обучению». Google предполагает, что в будущем модель сможет создавать такие инструменты и без вмешательства человека.
Эксперименты с играми, такими как Pokemon, показывают, что бенчмаркинг ИИ – сравнение производительности различных моделей – является сложной задачей. Наблюдение за поведением ИИ в игровой среде позволяет получить ценные данные о его сильных и слабых сторонах, выходящие за рамки традиционных тестов. Возможно, в будущем подобные исследования помогут разработчикам создать более совершенные и устойчивые к стрессовым ситуациям модели искусственного интеллекта, включая, возможно, и специальный «антипанический» модуль для Gemini.
Подробнее на iXBT
Предыдущие новости
NASA моделирует тени и экстремальные условия южного полюса Луны в масштабе 1:1, чтобы спасти астронавтов Artemis III
NASA активно готовится к миссии Artemis III, которая ознаменует возвращение человека на Луну, на этот раз – к её южному полюсу. Для обеспечения безопасности и успешного выполнения миссии специалисты агентства проводят масштабные испытания в уникальном центре Flat Floor Facility, расположенном в Космическом центре им. Маршалла в Хантсвилле (Алабама). В этом центре,...
«Что именно движется у нас по орбитам, полной информацией сегодня не обладает никто». В России создали уникальную систему распознавания спутников с Земли в реальном времени
Российские учёные разработали наземную систему, способную в реальном времени идентифицировать типы искусственных космических объектов на низкой орбите. Об этом сообщил доктор технических наук Анатолий Каляев на Петербургском международном экономическом форуме. Разработка осуществляется в одном из университетов страны при поддержке совета по науке и образованию при президенте...
ИИ — это не только GPU: Marvell проектирует полсотни кастомных чипов для ЦОД
Поскольку провайдеры облачных сервисов, ИИ-стартапы и суверенные субъекты масштабируют свои ЦОД, Marvell видит растущий спрос не только на основное вычислительное оборудование, включая пользовательские CPU, GPU и ускорители, но и на широкий спектр вспомогательных полупроводниковых элементов, включая контроллеры сетевых интерфейсов, чипы управления питанием, устройства...
Ракета Starship мощно взорвалась, даже не взлетев
Огневые испытания ракеты Starship S36 с шестью двигателями Raptor явно пошли не по плану — ракета зрелищно взорвалась. Причем на этот раз взрыв случился не в двигательном отсеке, а в носовой секции, где располагаются дополнительные баки. Скриншот видео NASASpaceFlight Официальных комментариев на этот счет нет, но учитывая, сколько раз до этого Starship успешно проходил...