- На момент анонса State of Decay 3... (4993)
- Apple удалила мессенджер Bitchat основателя... (5313)
- Intel внезапно представила пару мобильных... (4470)
- Объявлена дата анонса смартфонов Honor 600 и... (5163)
- Умные очки M**a научились изучать еду... (5315)
- Запуск лунной миссии Artemis II обернулся... (5011)
- «Прогресс МС-35» прибыл на... (5474)
- «Прогресс МС-35» прибыл на Байконур перед... (4731)
- Россия планирует расширить спутниковую... (5868)
- Дефицит Mac Mini и Mac Studio усугубляется:... (4719)
- Роскомнадзор второй раз за полгода опроверг... (5559)
- Глубокий анализ астероида Бенну раскрыл... (5066)
- Intel пообещала и дальше выпускать... (5366)
- Китайские власти не смогли заблокировать... (4746)
- 15 российских провайдеров оштрафовали на 4... (5254)
- Симулятор кошачьего завода «Мурзавод» от... (5515)
Gemini vs. Claude: битва ИИ-покемонов раскрыла неожиданные уроки для разработчиков
Дата: 2025-06-19 09:19
Мир искусственного интеллекта наблюдает за забавным, но поучительным экспериментом: Google DeepMind и Anthropic изучают, как их новейшие модели ИИ справляются с игрой Pokemon. Результаты, транслируемые в режиме реального времени на Twitch-каналах «Gemini Plays Pokemon» и «Claude Plays Pokemon», показывают как впечатляющие успехи, так и неожиданные проявления «поведения».
Отчёт Google DeepMind описывает любопытное явление: модель Gemini 2.5 Pro в критических ситуациях, когда покемоны находятся на грани поражения, впадает в состояние, которое исследователи описывают как «панику». Это приводит к «качественному ухудшению способности модели к рассуждениям». Проявляется это в том, что ИИ перестаёт использовать доступные ему инструменты, принимая поспешные и неэффективные решения, напоминая поведение человека под стрессом. Примечательно, что это поведение настолько заметно, что его неоднократно отмечали зрители стрима.
Иллюстрация: Leonardo Другая модель, Claude, продемонстрировала иную, не менее интересную стратегию. Застряв в пещере горы Мун, ИИ разработал ошибочную гипотезу: если все его покемоны потеряют здоровье, то он будет автоматически перемещён в ближайший покемон-центр. Зрители наблюдали с ужасом, как ИИ пытался «убить» своих покемонов, чтобы достичь цели, не понимая, что игра работает иначе – возвращая игрока в последний использованный центр.
Несмотря на очевидные недостатки в игровом процессе – Gemini тратит сотни часов на то, что ребёнок проходит за значительно меньшее время – модели демонстрируют впечатляющие способности в решении отдельных задач. В частности, Gemini 2.5 Pro с минимальной помощью человека создала эффективные инструменты для решения головоломок с валунами, продемонстрировав способность к «инструментальному обучению». Google предполагает, что в будущем модель сможет создавать такие инструменты и без вмешательства человека.
Эксперименты с играми, такими как Pokemon, показывают, что бенчмаркинг ИИ – сравнение производительности различных моделей – является сложной задачей. Наблюдение за поведением ИИ в игровой среде позволяет получить ценные данные о его сильных и слабых сторонах, выходящие за рамки традиционных тестов. Возможно, в будущем подобные исследования помогут разработчикам создать более совершенные и устойчивые к стрессовым ситуациям модели искусственного интеллекта, включая, возможно, и специальный «антипанический» модуль для Gemini.
Подробнее на iXBT
Предыдущие новости
NASA моделирует тени и экстремальные условия южного полюса Луны в масштабе 1:1, чтобы спасти астронавтов Artemis III
NASA активно готовится к миссии Artemis III, которая ознаменует возвращение человека на Луну, на этот раз – к её южному полюсу. Для обеспечения безопасности и успешного выполнения миссии специалисты агентства проводят масштабные испытания в уникальном центре Flat Floor Facility, расположенном в Космическом центре им. Маршалла в Хантсвилле (Алабама). В этом центре,...
«Что именно движется у нас по орбитам, полной информацией сегодня не обладает никто». В России создали уникальную систему распознавания спутников с Земли в реальном времени
Российские учёные разработали наземную систему, способную в реальном времени идентифицировать типы искусственных космических объектов на низкой орбите. Об этом сообщил доктор технических наук Анатолий Каляев на Петербургском международном экономическом форуме. Разработка осуществляется в одном из университетов страны при поддержке совета по науке и образованию при президенте...
ИИ — это не только GPU: Marvell проектирует полсотни кастомных чипов для ЦОД
Поскольку провайдеры облачных сервисов, ИИ-стартапы и суверенные субъекты масштабируют свои ЦОД, Marvell видит растущий спрос не только на основное вычислительное оборудование, включая пользовательские CPU, GPU и ускорители, но и на широкий спектр вспомогательных полупроводниковых элементов, включая контроллеры сетевых интерфейсов, чипы управления питанием, устройства...
Ракета Starship мощно взорвалась, даже не взлетев
Огневые испытания ракеты Starship S36 с шестью двигателями Raptor явно пошли не по плану — ракета зрелищно взорвалась. Причем на этот раз взрыв случился не в двигательном отсеке, а в носовой секции, где располагаются дополнительные баки. Скриншот видео NASASpaceFlight Официальных комментариев на этот счет нет, но учитывая, сколько раз до этого Starship успешно проходил...