- Xiaomi представила крошечное и дешёвое... (593)
- Xiaomi выпустила 600 000 электромобилей... (753)
- Xiaomi потребовалось 22 месяца на выпуск 600... (560)
- 120 Гц, 5750 мАч, 100-ваттная зарядка,... (614)
- Телевизоры Xiaomi TV S Mini LED 2026 выходят... (578)
- Samsung впервые «показала» складной смартфон... (483)
- Подтверждено существование ещё одной... (821)
- 300 Вт и 24 000 мАч в кармане. Представлен... (494)
- Аналитики рассказали, какая электроника... (551)
- Подорожание памяти больнее всего ударило по... (837)
- Starship вернётся домой: кораблю разрешили... (598)
- Новое место приземления ракет: SpaceX... (599)
- Систему Tesla Megapack ёмкостью 500 МВтч... (919)
- Производители чипов активно скупают старые... (808)
- Google с задержкой в пару дней выпустила... (669)
- Google начала распространение первой... (884)
Gemini vs. Claude: битва ИИ-покемонов раскрыла неожиданные уроки для разработчиков
Дата: 2025-06-19 09:19
Мир искусственного интеллекта наблюдает за забавным, но поучительным экспериментом: Google DeepMind и Anthropic изучают, как их новейшие модели ИИ справляются с игрой Pokemon. Результаты, транслируемые в режиме реального времени на Twitch-каналах «Gemini Plays Pokemon» и «Claude Plays Pokemon», показывают как впечатляющие успехи, так и неожиданные проявления «поведения».
Отчёт Google DeepMind описывает любопытное явление: модель Gemini 2.5 Pro в критических ситуациях, когда покемоны находятся на грани поражения, впадает в состояние, которое исследователи описывают как «панику». Это приводит к «качественному ухудшению способности модели к рассуждениям». Проявляется это в том, что ИИ перестаёт использовать доступные ему инструменты, принимая поспешные и неэффективные решения, напоминая поведение человека под стрессом. Примечательно, что это поведение настолько заметно, что его неоднократно отмечали зрители стрима.
Иллюстрация: Leonardo Другая модель, Claude, продемонстрировала иную, не менее интересную стратегию. Застряв в пещере горы Мун, ИИ разработал ошибочную гипотезу: если все его покемоны потеряют здоровье, то он будет автоматически перемещён в ближайший покемон-центр. Зрители наблюдали с ужасом, как ИИ пытался «убить» своих покемонов, чтобы достичь цели, не понимая, что игра работает иначе – возвращая игрока в последний использованный центр.
Несмотря на очевидные недостатки в игровом процессе – Gemini тратит сотни часов на то, что ребёнок проходит за значительно меньшее время – модели демонстрируют впечатляющие способности в решении отдельных задач. В частности, Gemini 2.5 Pro с минимальной помощью человека создала эффективные инструменты для решения головоломок с валунами, продемонстрировав способность к «инструментальному обучению». Google предполагает, что в будущем модель сможет создавать такие инструменты и без вмешательства человека.
Эксперименты с играми, такими как Pokemon, показывают, что бенчмаркинг ИИ – сравнение производительности различных моделей – является сложной задачей. Наблюдение за поведением ИИ в игровой среде позволяет получить ценные данные о его сильных и слабых сторонах, выходящие за рамки традиционных тестов. Возможно, в будущем подобные исследования помогут разработчикам создать более совершенные и устойчивые к стрессовым ситуациям модели искусственного интеллекта, включая, возможно, и специальный «антипанический» модуль для Gemini.
Подробнее на iXBT
Предыдущие новости
NASA моделирует тени и экстремальные условия южного полюса Луны в масштабе 1:1, чтобы спасти астронавтов Artemis III
NASA активно готовится к миссии Artemis III, которая ознаменует возвращение человека на Луну, на этот раз – к её южному полюсу. Для обеспечения безопасности и успешного выполнения миссии специалисты агентства проводят масштабные испытания в уникальном центре Flat Floor Facility, расположенном в Космическом центре им. Маршалла в Хантсвилле (Алабама). В этом центре,...
«Что именно движется у нас по орбитам, полной информацией сегодня не обладает никто». В России создали уникальную систему распознавания спутников с Земли в реальном времени
Российские учёные разработали наземную систему, способную в реальном времени идентифицировать типы искусственных космических объектов на низкой орбите. Об этом сообщил доктор технических наук Анатолий Каляев на Петербургском международном экономическом форуме. Разработка осуществляется в одном из университетов страны при поддержке совета по науке и образованию при президенте...
ИИ — это не только GPU: Marvell проектирует полсотни кастомных чипов для ЦОД
Поскольку провайдеры облачных сервисов, ИИ-стартапы и суверенные субъекты масштабируют свои ЦОД, Marvell видит растущий спрос не только на основное вычислительное оборудование, включая пользовательские CPU, GPU и ускорители, но и на широкий спектр вспомогательных полупроводниковых элементов, включая контроллеры сетевых интерфейсов, чипы управления питанием, устройства...
Ракета Starship мощно взорвалась, даже не взлетев
Огневые испытания ракеты Starship S36 с шестью двигателями Raptor явно пошли не по плану — ракета зрелищно взорвалась. Причем на этот раз взрыв случился не в двигательном отсеке, а в носовой секции, где располагаются дополнительные баки. Скриншот видео NASASpaceFlight Официальных комментариев на этот счет нет, но учитывая, сколько раз до этого Starship успешно проходил...