- M**a начнёт записывать все нажатия клавиш на... (5364)
- Флорида расследует пособничество ChatGPT... (5566)
- Представлен мощный модульный ноутбук... (6107)
- M**a ответит в суде за попустительство... (6666)
- Геймплейный трейлер Ruiner 2:... (5430)
- Новый геймплейный трейлер подтвердил дату... (5992)
- Россияне купили рекордное число роутеров —... (6246)
- YouTube автоматически отключит... (7075)
- Сверхмощная ИИ-модель Mythos попала не в те... (5695)
- Anthropic расследует инцидент с... (7432)
- «Яндекс» адаптировала чат с «Алисой AI» для... (6797)
- Codex набирает обороты: OpenAI привлекла... (5364)
- OpenAI привлечёт партнёров для продвижения... (5714)
- SpaceX признала, что может провалиться в... (7144)
- SpaceX не скрывает, что может не освоить... (6987)
- Публикация ссылок в X подорожала в 20 раз,... (5384)
OpenAI и Anthropic показали, насколько GPT-5 по качеству работы сравним с профессионалами в разных сферах
Дата: 2025-09-27 23:19
OpenAI представила результаты нового теста GDPval, который впервые попытался оценить, насколько возможности ИИ-моделей близки к профессиональному уровню в экономически значимых профессиях. Тест охватил 9 ведущих отраслей экономики США и 44 профессии — от инженеров и юристов до медсестёр и журналистов.
Суть GDPval в том, что опытные специалисты сравнивали отчёты и рекомендации, созданные человеком и ИИ, выбирая более качественные. Для специализированной версии GPT-5-high модель была признана равной или даже лучше экспертов в 40,6% случаев. Её конкурент Anthropic Claude Opus 4.1 занял 49% по похожему критерию, чему помогало более выразительное оформление графиков, хотя и не всегда высокое качество наполнения.
Иллюстрация: Sora Эксперты от OpenAI подчёркивают, что результаты включают только ограниченный набор задач, поэтому говорить о полном замещении профессий пока что рано. Тем не менее, наблюдается тенденция растущей конкурентоспособности ИИ в сложных рабочих процессах, что позволит специалистам сосредотачиваться на творческих и стратегически важных задачах, делегируя рутинную часть в пользу автоматизации и моделей.
OpenAI планирует расширять тестирование, чтобы включать больше профессий и интерактивных случаев из реальной жизни.
Подробнее на iXBT
Предыдущие новости
Учёные нашли у Земли седьмую «ложную Луну» — квазиспутник 2025 PN7
Портал N+1 пишет, что астрономы обнаружили у нашей планеты новейший квазиспутник — астероид 2025 PN7. Впрочем, он летит в пространстве рядом с Землёй уже более 60 лет и примерно столько же ещё пробудет вблизи, играя роль временного спутника планеты. Объект привлёк к себе внимание этим летом и после подтверждения орбиты получил право считаться седьмым открытым...
Представлена Toyota Camry 2026 Sport Lite Edition: богатое оснащение и цена всего 158,8 тыс. юаней (1,9 млн рублей)
В гамме Toyota Camry 2026 в Китае появилась новая версия — Camry 2026 Sport Lite Edition. Седан оценен в 158,8 тыс. юаней (1,9 млн рублей) — дешевле версии Sport, но при этом оснащение довольно богатое: 18-дюймовые колесные диски, набор систем помощи водителю Toyota Safety Sense 3.0 Pro (включая системы кругового обзора и интеллектуальной автоматической парковки), кожаный...
Так снимает Xiaomi 17 Pro: опубликованы реальные, а не рекламные фото, сделанные основной камерой смартфона
Сегодня в Китае стартовали продажи смартфонов Xiaomi 17 Pro и Xiaomi 17 Pro Max, и сегодня известный инсайдер Digital Chat Station опубликовал у себя на страничке в Weibo реальные фото, сделанные камерой Xiaomi 17 Pro. Фото: Digital Chat Station Фото: Digital Chat Station Фото: Digital Chat Station Фото: Digital Chat Station Изображения демонстрируют и ночную съемку, и...
Энтузиасты объединили двенадцать dial-up модемов для просмотра YouTube без тормозов
Четверть века назад вряд ли кто-то думал о широкополосном подключении к интернету. Тогда верхом совершенства была работа по коммутируемому каналу на скорости 56 Кбит/с. При этом оставалась возможность параллельного подключения пары модемов и, теоретически, ещё большего их числа. Сегодня сайты и сервисы «потяжелели» настолько, что 100 Мбит/с — это меньшее, что рекомендовано...