- В Яндексе разработали ИИ-сервис для... (6392)
- Классические Resident Evil, Resident Evil 2,... (5719)
- Спутниковый интернет в российских самолетах... (6529)
- Alibaba представила закрытую ИИ-модель... (6328)
- «Турбо Облако» запустило импортонезависимую... (5735)
- Motorola Razr 70 выйдет во втором квартале... (6058)
- Операторы готовы к запуску 5G в России, но... (5320)
- Новейший 100-дюймовый 4К-телевизор Redmi —... (6113)
- В РФ хотят сократить количество провайдеров.... (5851)
- 7000 мАч, OLED-дисплей Honor Oasis 120 Гц,... (6316)
- Когда системная плата может быть... (6022)
- Кризис памяти добрался до разработчиков... (6046)
- Представлен новый Geely Atlas с запасом хода... (6366)
- Глава отдела Apple Fitness в июле выйдет на... (6108)
- Hina: натрий-ионные батареи сравняются по... (6657)
- Valve прокачает главную страницу Steam — она... (5634)
OpenAI и Anthropic показали, насколько GPT-5 по качеству работы сравним с профессионалами в разных сферах
Дата: 2025-09-27 23:19
OpenAI представила результаты нового теста GDPval, который впервые попытался оценить, насколько возможности ИИ-моделей близки к профессиональному уровню в экономически значимых профессиях. Тест охватил 9 ведущих отраслей экономики США и 44 профессии — от инженеров и юристов до медсестёр и журналистов.
Суть GDPval в том, что опытные специалисты сравнивали отчёты и рекомендации, созданные человеком и ИИ, выбирая более качественные. Для специализированной версии GPT-5-high модель была признана равной или даже лучше экспертов в 40,6% случаев. Её конкурент Anthropic Claude Opus 4.1 занял 49% по похожему критерию, чему помогало более выразительное оформление графиков, хотя и не всегда высокое качество наполнения.
Иллюстрация: Sora Эксперты от OpenAI подчёркивают, что результаты включают только ограниченный набор задач, поэтому говорить о полном замещении профессий пока что рано. Тем не менее, наблюдается тенденция растущей конкурентоспособности ИИ в сложных рабочих процессах, что позволит специалистам сосредотачиваться на творческих и стратегически важных задачах, делегируя рутинную часть в пользу автоматизации и моделей.
OpenAI планирует расширять тестирование, чтобы включать больше профессий и интерактивных случаев из реальной жизни.
Подробнее на iXBT
Предыдущие новости
Учёные нашли у Земли седьмую «ложную Луну» — квазиспутник 2025 PN7
Портал N+1 пишет, что астрономы обнаружили у нашей планеты новейший квазиспутник — астероид 2025 PN7. Впрочем, он летит в пространстве рядом с Землёй уже более 60 лет и примерно столько же ещё пробудет вблизи, играя роль временного спутника планеты. Объект привлёк к себе внимание этим летом и после подтверждения орбиты получил право считаться седьмым открытым...
Представлена Toyota Camry 2026 Sport Lite Edition: богатое оснащение и цена всего 158,8 тыс. юаней (1,9 млн рублей)
В гамме Toyota Camry 2026 в Китае появилась новая версия — Camry 2026 Sport Lite Edition. Седан оценен в 158,8 тыс. юаней (1,9 млн рублей) — дешевле версии Sport, но при этом оснащение довольно богатое: 18-дюймовые колесные диски, набор систем помощи водителю Toyota Safety Sense 3.0 Pro (включая системы кругового обзора и интеллектуальной автоматической парковки), кожаный...
Так снимает Xiaomi 17 Pro: опубликованы реальные, а не рекламные фото, сделанные основной камерой смартфона
Сегодня в Китае стартовали продажи смартфонов Xiaomi 17 Pro и Xiaomi 17 Pro Max, и сегодня известный инсайдер Digital Chat Station опубликовал у себя на страничке в Weibo реальные фото, сделанные камерой Xiaomi 17 Pro. Фото: Digital Chat Station Фото: Digital Chat Station Фото: Digital Chat Station Фото: Digital Chat Station Изображения демонстрируют и ночную съемку, и...
Энтузиасты объединили двенадцать dial-up модемов для просмотра YouTube без тормозов
Четверть века назад вряд ли кто-то думал о широкополосном подключении к интернету. Тогда верхом совершенства была работа по коммутируемому каналу на скорости 56 Кбит/с. При этом оставалась возможность параллельного подключения пары модемов и, теоретически, ещё большего их числа. Сегодня сайты и сервисы «потяжелели» настолько, что 100 Мбит/с — это меньшее, что рекомендовано...