- Зарубежный трафик в российских сетях вырос... (3923)
- Первая годовщина Clair Obscur: Expedition 33... (3194)
- «Ещё один шаг к мировому господству... (4911)
- В следующем десятилетии люди начнут жить и... (2727)
- Microsoft запускает «мягкие» сокращения: 7 %... (3445)
- Представлена DeepSeek V4 — открытая... (2856)
- Intel заявила, что без оптимизаций игры... (2873)
- Porsche представила электрический Cayenne с... (4167)
- NASA утвердило состав миссии SpaceX Crew-13... (2703)
- Xiaomi представила ИИ-модели MiMo V2.5 для... (3450)
- Спортивный кроссовер Xiaomi YU7 GT... (3896)
- Curator: количество DDoS-атак интенсивностью... (3099)
- Пламенный двухмерный боевик Nocturnal стал... (3953)
- Samsung создала переключаемый... (4039)
- Смартфоны Huawei nova 15 и 15 Pro с... (3574)
- Microsoft добавила в Word, Excel и... (2902)
OpenAI и Anthropic показали, насколько GPT-5 по качеству работы сравним с профессионалами в разных сферах
Дата: 2025-09-27 23:19
OpenAI представила результаты нового теста GDPval, который впервые попытался оценить, насколько возможности ИИ-моделей близки к профессиональному уровню в экономически значимых профессиях. Тест охватил 9 ведущих отраслей экономики США и 44 профессии — от инженеров и юристов до медсестёр и журналистов.
Суть GDPval в том, что опытные специалисты сравнивали отчёты и рекомендации, созданные человеком и ИИ, выбирая более качественные. Для специализированной версии GPT-5-high модель была признана равной или даже лучше экспертов в 40,6% случаев. Её конкурент Anthropic Claude Opus 4.1 занял 49% по похожему критерию, чему помогало более выразительное оформление графиков, хотя и не всегда высокое качество наполнения.
Иллюстрация: Sora Эксперты от OpenAI подчёркивают, что результаты включают только ограниченный набор задач, поэтому говорить о полном замещении профессий пока что рано. Тем не менее, наблюдается тенденция растущей конкурентоспособности ИИ в сложных рабочих процессах, что позволит специалистам сосредотачиваться на творческих и стратегически важных задачах, делегируя рутинную часть в пользу автоматизации и моделей.
OpenAI планирует расширять тестирование, чтобы включать больше профессий и интерактивных случаев из реальной жизни.
Подробнее на iXBT
Предыдущие новости
Учёные нашли у Земли седьмую «ложную Луну» — квазиспутник 2025 PN7
Портал N+1 пишет, что астрономы обнаружили у нашей планеты новейший квазиспутник — астероид 2025 PN7. Впрочем, он летит в пространстве рядом с Землёй уже более 60 лет и примерно столько же ещё пробудет вблизи, играя роль временного спутника планеты. Объект привлёк к себе внимание этим летом и после подтверждения орбиты получил право считаться седьмым открытым...
Представлена Toyota Camry 2026 Sport Lite Edition: богатое оснащение и цена всего 158,8 тыс. юаней (1,9 млн рублей)
В гамме Toyota Camry 2026 в Китае появилась новая версия — Camry 2026 Sport Lite Edition. Седан оценен в 158,8 тыс. юаней (1,9 млн рублей) — дешевле версии Sport, но при этом оснащение довольно богатое: 18-дюймовые колесные диски, набор систем помощи водителю Toyota Safety Sense 3.0 Pro (включая системы кругового обзора и интеллектуальной автоматической парковки), кожаный...
Так снимает Xiaomi 17 Pro: опубликованы реальные, а не рекламные фото, сделанные основной камерой смартфона
Сегодня в Китае стартовали продажи смартфонов Xiaomi 17 Pro и Xiaomi 17 Pro Max, и сегодня известный инсайдер Digital Chat Station опубликовал у себя на страничке в Weibo реальные фото, сделанные камерой Xiaomi 17 Pro. Фото: Digital Chat Station Фото: Digital Chat Station Фото: Digital Chat Station Фото: Digital Chat Station Изображения демонстрируют и ночную съемку, и...
Энтузиасты объединили двенадцать dial-up модемов для просмотра YouTube без тормозов
Четверть века назад вряд ли кто-то думал о широкополосном подключении к интернету. Тогда верхом совершенства была работа по коммутируемому каналу на скорости 56 Кбит/с. При этом оставалась возможность параллельного подключения пары модемов и, теоретически, ещё большего их числа. Сегодня сайты и сервисы «потяжелели» настолько, что 100 Мбит/с — это меньшее, что рекомендовано...