- Европа откроет лазейку для массовой слежки... (2677)
- Неизвестный стартап подал в суд на Samsung —... (2175)
- «Не терпится поиграть в Returnal 2»:... (2728)
- Noctua опубликовала 3D-модели своих... (2571)
- Календарь релизов 27 апреля – 3 мая: Saros,... (2362)
- Умные очки Galaxy Glasses показались на... (3343)
- Сценарист Assassin’s Creed Black Flag... (2960)
- DeepSeek-V4 вышла без «вау-эффекта» — рынок... (2996)
- M**a договорилась о покупке 1 ГВт солнечной... (3167)
- ИИ вдвое ускорит разработку новых... (2807)
- MSI рассказала, как делает неколючие... (2609)
- Река Забвения, карма и 18 кругов ада —... (3370)
- Google подготовила иконки для приложений в... (4023)
- РТК-ЦОД ввёл в эксплуатацию третью очередь... (2672)
- MSI выпустила игровой монитор MAG 275CQDF... (3433)
- GPT-5.2 обошла абитуриентов, сдав... (2517)
OpenAI и Anthropic показали, насколько GPT-5 по качеству работы сравним с профессионалами в разных сферах
Дата: 2025-09-27 23:19
OpenAI представила результаты нового теста GDPval, который впервые попытался оценить, насколько возможности ИИ-моделей близки к профессиональному уровню в экономически значимых профессиях. Тест охватил 9 ведущих отраслей экономики США и 44 профессии — от инженеров и юристов до медсестёр и журналистов.
Суть GDPval в том, что опытные специалисты сравнивали отчёты и рекомендации, созданные человеком и ИИ, выбирая более качественные. Для специализированной версии GPT-5-high модель была признана равной или даже лучше экспертов в 40,6% случаев. Её конкурент Anthropic Claude Opus 4.1 занял 49% по похожему критерию, чему помогало более выразительное оформление графиков, хотя и не всегда высокое качество наполнения.
Иллюстрация: Sora Эксперты от OpenAI подчёркивают, что результаты включают только ограниченный набор задач, поэтому говорить о полном замещении профессий пока что рано. Тем не менее, наблюдается тенденция растущей конкурентоспособности ИИ в сложных рабочих процессах, что позволит специалистам сосредотачиваться на творческих и стратегически важных задачах, делегируя рутинную часть в пользу автоматизации и моделей.
OpenAI планирует расширять тестирование, чтобы включать больше профессий и интерактивных случаев из реальной жизни.
Подробнее на iXBT
Предыдущие новости
Учёные нашли у Земли седьмую «ложную Луну» — квазиспутник 2025 PN7
Портал N+1 пишет, что астрономы обнаружили у нашей планеты новейший квазиспутник — астероид 2025 PN7. Впрочем, он летит в пространстве рядом с Землёй уже более 60 лет и примерно столько же ещё пробудет вблизи, играя роль временного спутника планеты. Объект привлёк к себе внимание этим летом и после подтверждения орбиты получил право считаться седьмым открытым...
Представлена Toyota Camry 2026 Sport Lite Edition: богатое оснащение и цена всего 158,8 тыс. юаней (1,9 млн рублей)
В гамме Toyota Camry 2026 в Китае появилась новая версия — Camry 2026 Sport Lite Edition. Седан оценен в 158,8 тыс. юаней (1,9 млн рублей) — дешевле версии Sport, но при этом оснащение довольно богатое: 18-дюймовые колесные диски, набор систем помощи водителю Toyota Safety Sense 3.0 Pro (включая системы кругового обзора и интеллектуальной автоматической парковки), кожаный...
Так снимает Xiaomi 17 Pro: опубликованы реальные, а не рекламные фото, сделанные основной камерой смартфона
Сегодня в Китае стартовали продажи смартфонов Xiaomi 17 Pro и Xiaomi 17 Pro Max, и сегодня известный инсайдер Digital Chat Station опубликовал у себя на страничке в Weibo реальные фото, сделанные камерой Xiaomi 17 Pro. Фото: Digital Chat Station Фото: Digital Chat Station Фото: Digital Chat Station Фото: Digital Chat Station Изображения демонстрируют и ночную съемку, и...
Энтузиасты объединили двенадцать dial-up модемов для просмотра YouTube без тормозов
Четверть века назад вряд ли кто-то думал о широкополосном подключении к интернету. Тогда верхом совершенства была работа по коммутируемому каналу на скорости 56 Кбит/с. При этом оставалась возможность параллельного подключения пары модемов и, теоретически, ещё большего их числа. Сегодня сайты и сервисы «потяжелели» настолько, что 100 Мбит/с — это меньшее, что рекомендовано...