- Стартап Stardust Solutions привлёк рекордные... (2451)
- Geely Atlas впервые получил автопилот. В... (2446)
- Магнитное поле Сатурна оказалось... (2317)
- Телескоп «Джеймс Уэбб» показал скрытое... (2590)
- Лунный аппарат Blue Ghost от Firefly... (2375)
- Нержавеющие машины и самолеты можно будет... (2555)
- Новый пульт дистанционного управления Xiaomi... (2297)
- В Минцифры признают: выявить работу сервисов... (2332)
- Какое такое снижение цен на память? Samsung... (2013)
- У Samsung появился шанс обойти TSMC в США:... (2209)
- 6 апреля 2026 года будет побит рекорд по... (2171)
- Intel показала технологию нейронного сжатия... (2191)
- Обсерватория имени Веры Рубин обнаружила... (2113)
- Apple одобрила драйвер Tiny Corp, так что... (2085)
- Microsoft представила собственную линейку... (2095)
- Не берут? Samsung Galaxy S26 Ultra подешевел... (2175)
Gemini vs. Claude: битва ИИ-покемонов раскрыла неожиданные уроки для разработчиков
Дата: 2025-06-19 09:19
Мир искусственного интеллекта наблюдает за забавным, но поучительным экспериментом: Google DeepMind и Anthropic изучают, как их новейшие модели ИИ справляются с игрой Pokemon. Результаты, транслируемые в режиме реального времени на Twitch-каналах «Gemini Plays Pokemon» и «Claude Plays Pokemon», показывают как впечатляющие успехи, так и неожиданные проявления «поведения».
Отчёт Google DeepMind описывает любопытное явление: модель Gemini 2.5 Pro в критических ситуациях, когда покемоны находятся на грани поражения, впадает в состояние, которое исследователи описывают как «панику». Это приводит к «качественному ухудшению способности модели к рассуждениям». Проявляется это в том, что ИИ перестаёт использовать доступные ему инструменты, принимая поспешные и неэффективные решения, напоминая поведение человека под стрессом. Примечательно, что это поведение настолько заметно, что его неоднократно отмечали зрители стрима.
Иллюстрация: Leonardo Другая модель, Claude, продемонстрировала иную, не менее интересную стратегию. Застряв в пещере горы Мун, ИИ разработал ошибочную гипотезу: если все его покемоны потеряют здоровье, то он будет автоматически перемещён в ближайший покемон-центр. Зрители наблюдали с ужасом, как ИИ пытался «убить» своих покемонов, чтобы достичь цели, не понимая, что игра работает иначе – возвращая игрока в последний использованный центр.
Несмотря на очевидные недостатки в игровом процессе – Gemini тратит сотни часов на то, что ребёнок проходит за значительно меньшее время – модели демонстрируют впечатляющие способности в решении отдельных задач. В частности, Gemini 2.5 Pro с минимальной помощью человека создала эффективные инструменты для решения головоломок с валунами, продемонстрировав способность к «инструментальному обучению». Google предполагает, что в будущем модель сможет создавать такие инструменты и без вмешательства человека.
Эксперименты с играми, такими как Pokemon, показывают, что бенчмаркинг ИИ – сравнение производительности различных моделей – является сложной задачей. Наблюдение за поведением ИИ в игровой среде позволяет получить ценные данные о его сильных и слабых сторонах, выходящие за рамки традиционных тестов. Возможно, в будущем подобные исследования помогут разработчикам создать более совершенные и устойчивые к стрессовым ситуациям модели искусственного интеллекта, включая, возможно, и специальный «антипанический» модуль для Gemini.
Подробнее на iXBT
Предыдущие новости
NASA моделирует тени и экстремальные условия южного полюса Луны в масштабе 1:1, чтобы спасти астронавтов Artemis III
NASA активно готовится к миссии Artemis III, которая ознаменует возвращение человека на Луну, на этот раз – к её южному полюсу. Для обеспечения безопасности и успешного выполнения миссии специалисты агентства проводят масштабные испытания в уникальном центре Flat Floor Facility, расположенном в Космическом центре им. Маршалла в Хантсвилле (Алабама). В этом центре,...
«Что именно движется у нас по орбитам, полной информацией сегодня не обладает никто». В России создали уникальную систему распознавания спутников с Земли в реальном времени
Российские учёные разработали наземную систему, способную в реальном времени идентифицировать типы искусственных космических объектов на низкой орбите. Об этом сообщил доктор технических наук Анатолий Каляев на Петербургском международном экономическом форуме. Разработка осуществляется в одном из университетов страны при поддержке совета по науке и образованию при президенте...
ИИ — это не только GPU: Marvell проектирует полсотни кастомных чипов для ЦОД
Поскольку провайдеры облачных сервисов, ИИ-стартапы и суверенные субъекты масштабируют свои ЦОД, Marvell видит растущий спрос не только на основное вычислительное оборудование, включая пользовательские CPU, GPU и ускорители, но и на широкий спектр вспомогательных полупроводниковых элементов, включая контроллеры сетевых интерфейсов, чипы управления питанием, устройства...
Ракета Starship мощно взорвалась, даже не взлетев
Огневые испытания ракеты Starship S36 с шестью двигателями Raptor явно пошли не по плану — ракета зрелищно взорвалась. Причем на этот раз взрыв случился не в двигательном отсеке, а в носовой секции, где располагаются дополнительные баки. Скриншот видео NASASpaceFlight Официальных комментариев на этот счет нет, но учитывая, сколько раз до этого Starship успешно проходил...