- Для тех, кому обычного Haval H6 мало: Great... (5137)
- Китайские физики передали квантовый ключ на... (5509)
- Новые Volkswagen T-Cross предлагаются в... (4008)
- Праздник у пользователей Xiaomi, Redmi и... (4440)
- Разработана система генерации голосовых... (3982)
- Perplexity представила первое ИИ-приложение... (5724)
- OpenAI задумалась о музыкальном... (3911)
- Из X уволился главный кандидат на пост главы... (3787)
- TSMC объявила, что не боится запрета... (5243)
- Apple MacBook Pro M5 получил низкий рейтинг... (3922)
- Новый японский космический грузовик... (5207)
- Boox представила компактный букридер Palma 2... (4058)
- Техасские учёные создали первый... (3901)
- Роскомнадзор заблокировал в России... (3807)
- Физики из MIT заглянули внутрь ядра атома... (4155)
- Умные часы Samsung Galaxy Watch8 научились... (3828)
Gemini vs. Claude: битва ИИ-покемонов раскрыла неожиданные уроки для разработчиков
Дата: 2025-06-19 09:19
Мир искусственного интеллекта наблюдает за забавным, но поучительным экспериментом: Google DeepMind и Anthropic изучают, как их новейшие модели ИИ справляются с игрой Pokemon. Результаты, транслируемые в режиме реального времени на Twitch-каналах «Gemini Plays Pokemon» и «Claude Plays Pokemon», показывают как впечатляющие успехи, так и неожиданные проявления «поведения».
Отчёт Google DeepMind описывает любопытное явление: модель Gemini 2.5 Pro в критических ситуациях, когда покемоны находятся на грани поражения, впадает в состояние, которое исследователи описывают как «панику». Это приводит к «качественному ухудшению способности модели к рассуждениям». Проявляется это в том, что ИИ перестаёт использовать доступные ему инструменты, принимая поспешные и неэффективные решения, напоминая поведение человека под стрессом. Примечательно, что это поведение настолько заметно, что его неоднократно отмечали зрители стрима.
Иллюстрация: Leonardo Другая модель, Claude, продемонстрировала иную, не менее интересную стратегию. Застряв в пещере горы Мун, ИИ разработал ошибочную гипотезу: если все его покемоны потеряют здоровье, то он будет автоматически перемещён в ближайший покемон-центр. Зрители наблюдали с ужасом, как ИИ пытался «убить» своих покемонов, чтобы достичь цели, не понимая, что игра работает иначе – возвращая игрока в последний использованный центр.
Несмотря на очевидные недостатки в игровом процессе – Gemini тратит сотни часов на то, что ребёнок проходит за значительно меньшее время – модели демонстрируют впечатляющие способности в решении отдельных задач. В частности, Gemini 2.5 Pro с минимальной помощью человека создала эффективные инструменты для решения головоломок с валунами, продемонстрировав способность к «инструментальному обучению». Google предполагает, что в будущем модель сможет создавать такие инструменты и без вмешательства человека.
Эксперименты с играми, такими как Pokemon, показывают, что бенчмаркинг ИИ – сравнение производительности различных моделей – является сложной задачей. Наблюдение за поведением ИИ в игровой среде позволяет получить ценные данные о его сильных и слабых сторонах, выходящие за рамки традиционных тестов. Возможно, в будущем подобные исследования помогут разработчикам создать более совершенные и устойчивые к стрессовым ситуациям модели искусственного интеллекта, включая, возможно, и специальный «антипанический» модуль для Gemini.
Подробнее на iXBT
Предыдущие новости
NASA моделирует тени и экстремальные условия южного полюса Луны в масштабе 1:1, чтобы спасти астронавтов Artemis III
NASA активно готовится к миссии Artemis III, которая ознаменует возвращение человека на Луну, на этот раз – к её южному полюсу. Для обеспечения безопасности и успешного выполнения миссии специалисты агентства проводят масштабные испытания в уникальном центре Flat Floor Facility, расположенном в Космическом центре им. Маршалла в Хантсвилле (Алабама). В этом центре,...
«Что именно движется у нас по орбитам, полной информацией сегодня не обладает никто». В России создали уникальную систему распознавания спутников с Земли в реальном времени
Российские учёные разработали наземную систему, способную в реальном времени идентифицировать типы искусственных космических объектов на низкой орбите. Об этом сообщил доктор технических наук Анатолий Каляев на Петербургском международном экономическом форуме. Разработка осуществляется в одном из университетов страны при поддержке совета по науке и образованию при президенте...
ИИ — это не только GPU: Marvell проектирует полсотни кастомных чипов для ЦОД
Поскольку провайдеры облачных сервисов, ИИ-стартапы и суверенные субъекты масштабируют свои ЦОД, Marvell видит растущий спрос не только на основное вычислительное оборудование, включая пользовательские CPU, GPU и ускорители, но и на широкий спектр вспомогательных полупроводниковых элементов, включая контроллеры сетевых интерфейсов, чипы управления питанием, устройства...
Ракета Starship мощно взорвалась, даже не взлетев
Огневые испытания ракеты Starship S36 с шестью двигателями Raptor явно пошли не по плану — ракета зрелищно взорвалась. Причем на этот раз взрыв случился не в двигательном отсеке, а в носовой секции, где располагаются дополнительные баки. Скриншот видео NASASpaceFlight Официальных комментариев на этот счет нет, но учитывая, сколько раз до этого Starship успешно проходил...