- Curiosity продвигается вдоль западного края... (1877)
- Curiosity продвигается вдоль западного края... (1806)
- Недолго музыка играла: Sony закроет студию... (1601)
- NASA успешно интегрировало коронограф в... (1455)
- Первые изображения остатков сверхновых с... (1431)
- ИИ будет засорять Землю миллионами тонн... (1429)
- Надежда на жизнь в системе TRAPPIST: новое... (1481)
- Авторы «Смуты» раскрыли дату выхода... (1391)
- Perseverance открыл новые тайны Марса:... (1595)
- Xiaomi представила телевизоры TV S Pro Mini... (1516)
- Asus выпустила GeForce RTX 4070 Ti Super TUF... (1469)
- Учёные определили «опасные зоны» для... (1484)
- «Убийца Porsche Taycan»: Xiaomi представила... (1599)
- Учёные проанализировали данные с... (1468)
- Micron выпустила комплект модулей памяти... (1466)
- Представлены смарт-часы Xiaomi Watch S4 —... (1390)
Кризис достоверности в искусственном интеллекте: OpenAI показала, что LLM выдают ложные ответы в 60% случаев
Дата: 2024-11-03 23:03
Компания OpenAI представила новый бенчмарк под названием SimpleQA для оценки точности выходных данных собственных и конкурирующих моделей ИИ. Однако результаты тестирования выявили серьёзные проблемы с достоверностью информации, генерируемой современными крупными языковыми моделями (LLM).
Цель нового бенчмарка — обеспечить объективную оценку точности и надёжности LLM, которые всё чаще используются в различных сферах жизни, от образования и разработки программного обеспечения до здравоохранения и правоохранительных органов. Однако, как показало тестирование, даже самые передовые модели, такие как o1 от OpenAI и Claude-3.5-sonnet от Anthropic, демонстрируют крайне низкие показатели успешности - 42,7% и 28,9% соответственно.
Источник: Michael Dwyer / APПроблема усугубляется тем, что модели склонны «переоценивать свои возможности» и выдавать ответы, которые являются полной ерундой, известной как «галлюцинации». Эта тенденция хорошо документирована и может привести к серьёзным последствиям, особенно в таких чувствительных областях, как здравоохранение и правоохранительная деятельность. Например, модель ИИ, используемая в больницах и построенная на технологии OpenAI, была замечена в частых галлюцинациях и неточностях при расшифровке взаимодействий с пациентами. Полицейские в США также начинают использовать ИИ, что может привести к ложным обвинениям невиновных или усилению предубеждений.
По словам экспертов, результаты тестирования на бенчмарке SimpleQA являются тревожным сигналом о том, что нынешние LLM крайне неспособны достоверно говорить правду. «Это событие должно послужить напоминанием о том, что к любому результату работы любого LLM следует относиться с изрядной долей скептицизма и быть готовым тщательно проверять сгенерированный текст», — заявил представитель OpenAI.
Остаётся открытым вопрос, можно ли решить проблему достоверности LLM с помощью ещё больших обучающих наборов, как утверждают лидеры в области ИИ. Однако, по мнению некоторых экспертов, необходимо искать новые подходы к разработке моделей ИИ, которые бы обеспечивали более высокую точность и надёжность генерируемой информации. «Мы должны сосредоточиться на разработке моделей, которые могут не только генерировать правдоподобные ответы, но и оценивать их и отказываться от ответа, когда не уверены в достоверности», — отметил один из исследователей в области ИИ.
Результаты тестирования на бенчмарке SimpleQA подчёркивают необходимость дальнейших исследований и разработок в области искусственного интеллекта, чтобы обеспечить надёжность и достоверность генерируемой информации и предотвратить потенциальные негативные последствия использования LLM в различных сферах жизни.
Подробнее на iXBT
Предыдущие новости
Microsoft разоблачила китайскую группировку Storm-0940, использующую ботнет Quad7 для атак на клиентов
Компания Microsoft сообщила о выявлении сложной киберугрозы, исходящей от китайской группировки Storm-0940, которая использует ботнет Quad7, также известный как CovertNetwork-1658, для проведения атак методом «распыления паролей». Эти атаки нацелены на кражу учётных данных у нескольких клиентов Microsoft, включая организации в Северной Америке и Европе, такие как аналитические...
ESA и Институт SETI готовят человечество к контакту с внеземными цивилизациями: командой отца и дочери расшифрован первый сигнал
В 2023 году Европейское космическое агентство (ESA) и Институт SETI провели эксперимент под названием «Знак в космосе» (A Sign in Space), целью которого было проверить методы декодирования потенциальных сигналов от внеземных цивилизаций. В рамках этого проекта марсианский зонд ExoMars Trace Gas Orbiter передал на Землю закодированное сообщение, смоделированное как возможный...
Джефф Безос снова продаёт акции Amazon на $3 млрд
Основатель Amazon Джефф Безос продолжает продавать акции своей компании, на этот раз на сумму более $3 миллиардов, согласно последнему нормативному документу, опубликованному в пятницу. Эта продажа более 16 миллионов акций произошла, когда акции Amazon снова приблизились к отметке $200 за акцию, что является самой высокой ценой с момента листинга компании на NASDAQ в 1997...
Передача эстафеты: Китайская космическая станция «Тяньгун» встретила новый экипаж «Шэньчжоу-19»
Китайская космическая станция «Тяньгун» официально передана новому экипажу «Шэньчжоу-19», который прибыл на станцию 30 октября после успешного запуска с космодрома Цзюцюань на северо-западе Китая. Командир «Шэньчжоу-18» Е Гуанфу, который недавно стал первым тайконавтом, проведшим в общей сложности 365 дней в космосе, передал символический ключ командиру «Шэньчжоу-19» Цаю...