- Репортаж со стенда Ocypus на Computex 2026:... (2278)
- Nvidia признали самой подготовленной к... (1831)
- FSP показала блок питания Cannon на 3300 Вт,... (2520)
- «Новая BioShock выглядит отлично»:... (2147)
- Репортаж со стенда TeamGroup на Computex... (2346)
- ИИ-техподдержка M**a повелась на манипуляции... (2166)
- Легендарный стелс-экшен Thief спустя 28 лет... (2042)
- Apple вот-вот представит новый Mac Studio на... (2074)
- Новая статья: Обзор HUAWEI MatePad SE 11"... (1837)
- Репортаж со стенда Zalman на Computex 2026:... (2222)
- NASA показало комбинезон LCVG от Prada с... (2147)
- Сюжетная ролевая игра Vampire: The... (2858)
- К 25-летию первой Xbox выйдет приставка Xbox... (2486)
- Supermicro представила Arm-серверы для... (2138)
- Folio Photonics привлёк $8 млн и планирует... (2801)
- ИИ-бум за ближайшие пять лет разгонит спрос... (3204)
Теперь ИИ может взаимодействовать с веб-сайтами так же, как это делает человек: Google представила модель Gemini 2.5 Computer Use
Дата: 2025-10-09 08:44
Google выпустила новую модель искусственного интеллекта Gemini 2.5 Computer Use. Эта модель позволяет ИИ-агентам взаимодействовать с веб-сайтами и пользовательскими интерфейсами так же, как это делает человек, по утверждению Google. Она уже доступна в публичном ознакомительном режиме через API Gemini в Google AI Studio и Vertex AI.
Модель основана на возможностях визуального восприятия и рассуждения Gemini 2.5 Pro. Она может выполнять широкий спектр действий в браузере, таких как нажатие клавиш, ввод текста, прокрутка, наведение курсора, открытие раскрывающихся списков и навигация по URL-адресам. Google заявляет, что модель превосходит конкурирующие инструменты в нескольких бенчмарках, включая Online-Mind2Web, WebVoyager и AndroidWorld, сохраняя при этом меньшую задержку.
Изображение Midjourney В отличие от традиционных моделей ИИ, использующих API, Gemini 2.5 Computer Use обрабатывает скриншоты веб-интерфейсов и генерирует в ответ конкретные действия. Агент получает запрос на выполнение задачи, скриншот и историю недавних действий. Затем он анализирует интерфейс и выдает действие, например, нажатие кнопки или ввод данных в поле. Действие выполняется на стороне клиента, а новый скриншот отправляется обратно модели для продолжения выполнения задачи в цикле.
Google продемонстрировала эффективность модели на примерах, где агент сортирует стикеры на цифровой доске и переносит информацию о домашних животных с одного сайта в CRM-систему.
В настоящее время модель поддерживает 13 действий и лучше всего работает в веб-браузерах. Google заявила, что модель пока не оптимизирована для задач на уровне настольных ОС, хотя и продемонстрировала потенциал в мобильных бенчмарках.
Подробнее на iXBT
Предыдущие новости
Стало известно, с каких машин россияне пересаживаются на новенькие Lada Iskra
Дилерская сеть «Прагматика» поделилась с «Российской газетой» данными о программе трейд-ин для новой Lada Iskra. Около 80% автомобилей, которые покупатели готовы сдать в обмен на новинку, — это модели Lada. Лидером является Lada Granta, также часто сдают Lada Niva и Lada Vesta в начальных комплектациях. Оставшиеся 20% приходятся на иномарки, преимущественно старше 15 лет....
Nvidia получила лицензии, необходимые для экспорта в ОАЭ ускорителей вычислений на миллиарды долларов США
Ещё в мае по итогам визита в ОАЭ американского президента Дональда Трампа (Donald Trump) была достигнута договорённость о строительстве в этой стране крупного вычислительного центра мощностью до 5 ГВт, для работы которого потребовалось бы более 2 млн ускорителей Nvidia. Последней удалось получить необходимые для поставок в ОАЭ экспортные лицензии только недавно. Источник...
Воров, крадущих кабели InstaVolt для зарядки электромобилей, теперь быстро отслеживают по встроенным GPS-трекерам
Компания InstaVolt укрепила свои кабели для зарядных станций электромобилей кевларовой оболочкой, что усложнило их перерезание. Кроме того, компания в сотрудничестве с поставщиком GPS-оборудования Trackit247 внедрила функцию GPS-отслеживания в режиме реального времени на всех зарядных кабелях своей сети. Технология обновляет местоположение каждые три секунды, что позволяет...
449 л.с., полный привод, запас хода более 1100 км и технологии Huawei: в России остались только две версии Aito Seres M7
Гибридные кроссоверы Aito Seres M7 в шестиместной версии больше не доступны на российском рынке, сообщают «Китайские автомобили». Теперь модель предлагается только в двух пятиместных комплектациях по цене от 7 до 7,5 млн рублей без учета специальных предложений. Для российского потребителя более привычны 5-местные комплектации автомобилей. На это указывает как результаты...