- Первый смартфон Huawei с активным... (7221)
- Экран 165 Гц, аккумулятор емкостью 9000 мАч... (7377)
- Doogee S300 Plus — сверхпрочный смартфон на... (5943)
- Плохие новости для США и Европы. Инсайдер... (8848)
- «Ждал этого пять лет»: ролевой экшен... (6792)
- Зафиксирован всплеск жалоб на работу... (6593)
- Китай усиливает навигацию: на орбиту... (6638)
- «Отработали на "пятерку"», — глава... (6646)
- Плоский экран, аккумулятор 8000 мАч,... (7274)
- Складной iPhone всё ближе: Apple готовит... (7055)
- Xiaomi запускает тестирование miclaw на... (6716)
- HarmonyOS готовит для устройств Huawei более... (6580)
- Huawei улучшает функцию Live View — это... (6667)
- Huawei рвёт рынок: серия Mate 80... (6956)
- Галлюцинации ИИ пугают людей больше, чем... (6079)
- Единственный компактный флагман, экран... (7594)
HealthBench от OpenAI задал новый стандарт для медицинских ИИ
Дата: 2025-05-13 11:16
OpenAI совместно с 262 врачами из 60 стран представила открытый бенчмарк HealthBench для оценки больших языковых моделей (LLM) в сфере здравоохранения. Инструмент, разработанный для преодоления ограничений предыдущих тестов, использует 5000 реалистичных многоходовых диалогов, охватывающих экстренные ситуации, работу с клиническими данными и глобальные медицинские сценарии. Каждый диалог оценивается по индивидуальным критериям — врачи разработали свыше 48 тысяч правил, проверяющих точность, коммуникацию, контекстную осведомлённость и другие параметры ответов ИИ.
HealthBench вводит инновационный подход: вместо упрощённых вопросов с множественным выбором здесь анализируются открытые диалоги, где баллы присваиваются за выполнение или нарушение конкретных условий. Например, рекомендация неотложной помощи может дать +10 баллов, а неверный совет до -10. Итоговая оценка модели формируется на основе суммы баллов, нормализованной до шкалы [0, 1]. Для повышения точности разработчики внедрили «критерии консенсуса» — 34 ключевых правила, утверждённых большинством врачей, а также подмножество HealthBench Hard из 1000 сложных случаев, где даже передовые модели вроде GPT-4.1 nano демонстрируют результаты всего в 0,32 балла.
Иллюстрация: Leonardo Результаты тестирования показывают прогресс: если GPT-3.5 Turbo набрал 16%, то GPT-4o достиг 32%, а новейшая o3 — 60%. Надёжность моделей, измеряемая по худшему результату из 16 попыток, у o3 вдвое выше, чем у GPT-4o. Однако в критических сценариях, таких как экстренная помощь, уровень ошибок снизился в четыре раза с 2023 года, но проблемы с контекстным поиском и реакцией на неопределённость сохраняются.
Важным аспектом HealthBench стала мета-оценка: согласованность решений врачей и модели-оценщика GPT-4.1 варьируется в пределах 55–75%, что отражает естественную неоднозначность клинических суждений. При этом общая стабильность результатов при повторных запусках подтверждает низкий уровень шума в оценках.
Несмотря на открытый код и данные, разработчики предупреждают о рисках утечек: в бенчмарк внедрены меры для отслеживания несанкционированного использования. HealthBench уже становится стандартом для исследований, но создатели подчёркивают, что даже лучшие модели пока не готовы к повсеместному применению в медицине — особенно из-за недостаточной надёжности в критических случаях.
Подробнее на iXBT
Предыдущие новости
Казахстан расширяет производство современных и недорогих машин по полному циклу: на заводе Allur началась мелкоузловая сборка кроссоверов Jetour X70 Plus
На заводе Allur в Костанайской области стартовала мелкоузловая сборка кроссоверов Jetour X70 Plus, включающая сварку и окраску кузовов. Производственная линия рассчитана на выпуск до 15 тысяч автомобилей ежегодно. Jetour X70 Plus имеет габариты 4724 х 1900 х 1720 мм и оснащён 1,6-литровым двигателем внутреннего сгорания мощностью 190 л. с., работающим в паре с семиступенчатой...
В Белоруссии перезапустили продажи Volvo: Volvo XC90 с 2,0-литровым мотором и гарантией 150 тыс. км — 135 тыс. евро (12,1 млн рублей)
Официальный дилер Volvo в Беларуси, компания «Элитавто», объявила о возобновлении поставок в страну автомобилей шведской марки. После перерыва компания представила обновленный кроссовер XC90, а также поделилась планами на будущее. Фото: Onliner Обновленный Volvo XC90 предложен в версии с 2,0-литровым мотором мощностью 250 л.с., 8-ступенчатым «автоматом» и системой полного...
Мрачный боевик Dragon is Dead скоро сбросит оковы раннего доступа — дата выхода и подробности релизной версии
Издательство PM Studios и разработчики из южнокорейской студии Team Suneat (Blade Assault) объявили дату полноценного релиза мрачного экшен-платформера с роглайк-элементами Dragon is Dead. Источник изображений: PM
«На несколько порядков мощности больше, чем у МКС». Российская орбитальная станция получит новейшие солнечные панели
Российская орбитальная станция (РОС), которая находится в стадии активной разработки, будет оснащена источниками энергии, значительно превосходящими по мощности те, что используются на Международной космической станции (МКС). Об этом в интервью ТАСС сообщил президент Российской академии наук (РАН) Геннадий Красников. По его словам, новые солнечные панели обеспечат станцию...