- 7400 мАч, 80 Вт, Snapdragon 8 Gen 5, IP69 и... (366)
- На «Госуслуги» перестали пускать без... (374)
- Windows 11 25H2 стала доступна для всех... (386)
- МКС, уступи дорогу. Российскую орбитальную... (351)
- Динамичный трейлер подтвердил дату выхода... (392)
- Samsung готовит новую беспроводную зарядку... (254)
- Gartner: дата-центры без собственных... (428)
- «Яндекс Браузер» теперь будет потреблять... (324)
- Microsoft обновила диалоговое окно... (260)
- Хит «Худи» в разных жанрах: Яндекс запускает... (405)
- Большая партия «Москвичей 5» прибыла к... (302)
- Киноправа на «Гарри Поттера» теперь... (240)
- Заключённый с ложной Луны даёт отпор жутким... (228)
- Apple лишилась двух топ-менеджеров за 72... (340)
- M**a «одолжила» у Intel 250 МВт для своего... (225)
- Panasonic впервые доверила остекление офиса... (216)
OpenAI и Anthropic показали, насколько GPT-5 по качеству работы сравним с профессионалами в разных сферах
Дата: 2025-09-27 23:19
OpenAI представила результаты нового теста GDPval, который впервые попытался оценить, насколько возможности ИИ-моделей близки к профессиональному уровню в экономически значимых профессиях. Тест охватил 9 ведущих отраслей экономики США и 44 профессии — от инженеров и юристов до медсестёр и журналистов.
Суть GDPval в том, что опытные специалисты сравнивали отчёты и рекомендации, созданные человеком и ИИ, выбирая более качественные. Для специализированной версии GPT-5-high модель была признана равной или даже лучше экспертов в 40,6% случаев. Её конкурент Anthropic Claude Opus 4.1 занял 49% по похожему критерию, чему помогало более выразительное оформление графиков, хотя и не всегда высокое качество наполнения.
Иллюстрация: Sora Эксперты от OpenAI подчёркивают, что результаты включают только ограниченный набор задач, поэтому говорить о полном замещении профессий пока что рано. Тем не менее, наблюдается тенденция растущей конкурентоспособности ИИ в сложных рабочих процессах, что позволит специалистам сосредотачиваться на творческих и стратегически важных задачах, делегируя рутинную часть в пользу автоматизации и моделей.
OpenAI планирует расширять тестирование, чтобы включать больше профессий и интерактивных случаев из реальной жизни.
Подробнее на iXBT
Предыдущие новости
Учёные нашли у Земли седьмую «ложную Луну» — квазиспутник 2025 PN7
Портал N+1 пишет, что астрономы обнаружили у нашей планеты новейший квазиспутник — астероид 2025 PN7. Впрочем, он летит в пространстве рядом с Землёй уже более 60 лет и примерно столько же ещё пробудет вблизи, играя роль временного спутника планеты. Объект привлёк к себе внимание этим летом и после подтверждения орбиты получил право считаться седьмым открытым...
Представлена Toyota Camry 2026 Sport Lite Edition: богатое оснащение и цена всего 158,8 тыс. юаней (1,9 млн рублей)
В гамме Toyota Camry 2026 в Китае появилась новая версия — Camry 2026 Sport Lite Edition. Седан оценен в 158,8 тыс. юаней (1,9 млн рублей) — дешевле версии Sport, но при этом оснащение довольно богатое: 18-дюймовые колесные диски, набор систем помощи водителю Toyota Safety Sense 3.0 Pro (включая системы кругового обзора и интеллектуальной автоматической парковки), кожаный...
Так снимает Xiaomi 17 Pro: опубликованы реальные, а не рекламные фото, сделанные основной камерой смартфона
Сегодня в Китае стартовали продажи смартфонов Xiaomi 17 Pro и Xiaomi 17 Pro Max, и сегодня известный инсайдер Digital Chat Station опубликовал у себя на страничке в Weibo реальные фото, сделанные камерой Xiaomi 17 Pro. Фото: Digital Chat Station Фото: Digital Chat Station Фото: Digital Chat Station Фото: Digital Chat Station Изображения демонстрируют и ночную съемку, и...
Энтузиасты объединили двенадцать dial-up модемов для просмотра YouTube без тормозов
Четверть века назад вряд ли кто-то думал о широкополосном подключении к интернету. Тогда верхом совершенства была работа по коммутируемому каналу на скорости 56 Кбит/с. При этом оставалась возможность параллельного подключения пары модемов и, теоретически, ещё большего их числа. Сегодня сайты и сервисы «потяжелели» настолько, что 100 Мбит/с — это меньшее, что рекомендовано...