- Представлен Jeep Grand Cherokee 2025 — самый... (1792)
- Рост спроса на периферийные устройства... (2414)
- У Илона Маска один Starship, а у Geely —... (1690)
- У Илона Маска один Starship, а у Geely —... (2044)
- «Спекулятивный пузырь, который в конечном... (2660)
- Самый мощный в мире настольный ПК? Titan... (11040)
- Автомобили Li Auto поменяют дизайн и... (1992)
- Samsung Galaxy S25 и Galaxy S25 Plus... (2514)
- Samsung Galaxy S25 и Galaxy S25 Plus... (2118)
- Представлен 100-ваттный внешний аккумулятор... (1791)
- Первый Ultra-смартфон в линейке... (2018)
- Snapdragon 8 Elite, 24 ГБ физической... (2056)
- Это Asus ROG Phone 9 на Snapdragon 8 Elite.... (1918)
- Первый глобальный флагман на Snapdragon 8... (1902)
- Контролировавшая крупнейшую атомную стройку... (1882)
- Флагманский кроссовер Chery Tiggo 9 для... (1855)
Кризис достоверности в искусственном интеллекте: OpenAI показала, что LLM выдают ложные ответы в 60% случаев
Дата: 2024-11-03 23:03
Компания OpenAI представила новый бенчмарк под названием SimpleQA для оценки точности выходных данных собственных и конкурирующих моделей ИИ. Однако результаты тестирования выявили серьёзные проблемы с достоверностью информации, генерируемой современными крупными языковыми моделями (LLM).
Цель нового бенчмарка — обеспечить объективную оценку точности и надёжности LLM, которые всё чаще используются в различных сферах жизни, от образования и разработки программного обеспечения до здравоохранения и правоохранительных органов. Однако, как показало тестирование, даже самые передовые модели, такие как o1 от OpenAI и Claude-3.5-sonnet от Anthropic, демонстрируют крайне низкие показатели успешности - 42,7% и 28,9% соответственно.
Источник: Michael Dwyer / APПроблема усугубляется тем, что модели склонны «переоценивать свои возможности» и выдавать ответы, которые являются полной ерундой, известной как «галлюцинации». Эта тенденция хорошо документирована и может привести к серьёзным последствиям, особенно в таких чувствительных областях, как здравоохранение и правоохранительная деятельность. Например, модель ИИ, используемая в больницах и построенная на технологии OpenAI, была замечена в частых галлюцинациях и неточностях при расшифровке взаимодействий с пациентами. Полицейские в США также начинают использовать ИИ, что может привести к ложным обвинениям невиновных или усилению предубеждений.
По словам экспертов, результаты тестирования на бенчмарке SimpleQA являются тревожным сигналом о том, что нынешние LLM крайне неспособны достоверно говорить правду. «Это событие должно послужить напоминанием о том, что к любому результату работы любого LLM следует относиться с изрядной долей скептицизма и быть готовым тщательно проверять сгенерированный текст», — заявил представитель OpenAI.
Остаётся открытым вопрос, можно ли решить проблему достоверности LLM с помощью ещё больших обучающих наборов, как утверждают лидеры в области ИИ. Однако, по мнению некоторых экспертов, необходимо искать новые подходы к разработке моделей ИИ, которые бы обеспечивали более высокую точность и надёжность генерируемой информации. «Мы должны сосредоточиться на разработке моделей, которые могут не только генерировать правдоподобные ответы, но и оценивать их и отказываться от ответа, когда не уверены в достоверности», — отметил один из исследователей в области ИИ.
Результаты тестирования на бенчмарке SimpleQA подчёркивают необходимость дальнейших исследований и разработок в области искусственного интеллекта, чтобы обеспечить надёжность и достоверность генерируемой информации и предотвратить потенциальные негативные последствия использования LLM в различных сферах жизни.
Подробнее на iXBT
Предыдущие новости
Microsoft разоблачила китайскую группировку Storm-0940, использующую ботнет Quad7 для атак на клиентов
Компания Microsoft сообщила о выявлении сложной киберугрозы, исходящей от китайской группировки Storm-0940, которая использует ботнет Quad7, также известный как CovertNetwork-1658, для проведения атак методом «распыления паролей». Эти атаки нацелены на кражу учётных данных у нескольких клиентов Microsoft, включая организации в Северной Америке и Европе, такие как аналитические...
ESA и Институт SETI готовят человечество к контакту с внеземными цивилизациями: командой отца и дочери расшифрован первый сигнал
В 2023 году Европейское космическое агентство (ESA) и Институт SETI провели эксперимент под названием «Знак в космосе» (A Sign in Space), целью которого было проверить методы декодирования потенциальных сигналов от внеземных цивилизаций. В рамках этого проекта марсианский зонд ExoMars Trace Gas Orbiter передал на Землю закодированное сообщение, смоделированное как возможный...
Джефф Безос снова продаёт акции Amazon на $3 млрд
Основатель Amazon Джефф Безос продолжает продавать акции своей компании, на этот раз на сумму более $3 миллиардов, согласно последнему нормативному документу, опубликованному в пятницу. Эта продажа более 16 миллионов акций произошла, когда акции Amazon снова приблизились к отметке $200 за акцию, что является самой высокой ценой с момента листинга компании на NASDAQ в 1997...
Передача эстафеты: Китайская космическая станция «Тяньгун» встретила новый экипаж «Шэньчжоу-19»
Китайская космическая станция «Тяньгун» официально передана новому экипажу «Шэньчжоу-19», который прибыл на станцию 30 октября после успешного запуска с космодрома Цзюцюань на северо-западе Китая. Командир «Шэньчжоу-18» Е Гуанфу, который недавно стал первым тайконавтом, проведшим в общей сложности 365 дней в космосе, передал символический ключ командиру «Шэньчжоу-19» Цаю...