- Phison представила PCIe 5.0 SSD серии... (905)
- «Волги» с японским мотором, «автоматом»,... (972)
- Первый «лёгкий внедорожник» Geely с шинами... (970)
- «Волги» с японским мотором, «автоматом»,... (978)
- Представлен лучший внедорожник Honda всех... (874)
- В России создадут суперкомпьютер нового... (1165)
- В Китае установили рекорд по времени... (814)
- Tesla объявила шестой отзыв Cybertruck за... (1035)
- Chery представила внедорожный минивэн... (836)
- Solidigm представила самый ёмкий SSD в мире... (1012)
- Solidigm представила SSD ёмкостью 122,88... (887)
- В России выпустили кабели нового поколения... (912)
- OpenAI планирует выпустить ИИ-агента... (999)
- Оператор «СберМобайл» пришёл в Калмыкию,... (1045)
- «Новый стандарт в автомобильной логистике».... (1019)
- Skoda Octavia начали выпускать в Казахстане,... (780)
Кризис достоверности в искусственном интеллекте: OpenAI показала, что LLM выдают ложные ответы в 60% случаев
Дата: 2024-11-03 23:03
Компания OpenAI представила новый бенчмарк под названием SimpleQA для оценки точности выходных данных собственных и конкурирующих моделей ИИ. Однако результаты тестирования выявили серьёзные проблемы с достоверностью информации, генерируемой современными крупными языковыми моделями (LLM).
Цель нового бенчмарка — обеспечить объективную оценку точности и надёжности LLM, которые всё чаще используются в различных сферах жизни, от образования и разработки программного обеспечения до здравоохранения и правоохранительных органов. Однако, как показало тестирование, даже самые передовые модели, такие как o1 от OpenAI и Claude-3.5-sonnet от Anthropic, демонстрируют крайне низкие показатели успешности - 42,7% и 28,9% соответственно.
Источник: Michael Dwyer / APПроблема усугубляется тем, что модели склонны «переоценивать свои возможности» и выдавать ответы, которые являются полной ерундой, известной как «галлюцинации». Эта тенденция хорошо документирована и может привести к серьёзным последствиям, особенно в таких чувствительных областях, как здравоохранение и правоохранительная деятельность. Например, модель ИИ, используемая в больницах и построенная на технологии OpenAI, была замечена в частых галлюцинациях и неточностях при расшифровке взаимодействий с пациентами. Полицейские в США также начинают использовать ИИ, что может привести к ложным обвинениям невиновных или усилению предубеждений.
По словам экспертов, результаты тестирования на бенчмарке SimpleQA являются тревожным сигналом о том, что нынешние LLM крайне неспособны достоверно говорить правду. «Это событие должно послужить напоминанием о том, что к любому результату работы любого LLM следует относиться с изрядной долей скептицизма и быть готовым тщательно проверять сгенерированный текст», — заявил представитель OpenAI.
Остаётся открытым вопрос, можно ли решить проблему достоверности LLM с помощью ещё больших обучающих наборов, как утверждают лидеры в области ИИ. Однако, по мнению некоторых экспертов, необходимо искать новые подходы к разработке моделей ИИ, которые бы обеспечивали более высокую точность и надёжность генерируемой информации. «Мы должны сосредоточиться на разработке моделей, которые могут не только генерировать правдоподобные ответы, но и оценивать их и отказываться от ответа, когда не уверены в достоверности», — отметил один из исследователей в области ИИ.
Результаты тестирования на бенчмарке SimpleQA подчёркивают необходимость дальнейших исследований и разработок в области искусственного интеллекта, чтобы обеспечить надёжность и достоверность генерируемой информации и предотвратить потенциальные негативные последствия использования LLM в различных сферах жизни.
Подробнее на iXBT
Предыдущие новости
Microsoft разоблачила китайскую группировку Storm-0940, использующую ботнет Quad7 для атак на клиентов
Компания Microsoft сообщила о выявлении сложной киберугрозы, исходящей от китайской группировки Storm-0940, которая использует ботнет Quad7, также известный как CovertNetwork-1658, для проведения атак методом «распыления паролей». Эти атаки нацелены на кражу учётных данных у нескольких клиентов Microsoft, включая организации в Северной Америке и Европе, такие как аналитические...
ESA и Институт SETI готовят человечество к контакту с внеземными цивилизациями: командой отца и дочери расшифрован первый сигнал
В 2023 году Европейское космическое агентство (ESA) и Институт SETI провели эксперимент под названием «Знак в космосе» (A Sign in Space), целью которого было проверить методы декодирования потенциальных сигналов от внеземных цивилизаций. В рамках этого проекта марсианский зонд ExoMars Trace Gas Orbiter передал на Землю закодированное сообщение, смоделированное как возможный...
Джефф Безос снова продаёт акции Amazon на $3 млрд
Основатель Amazon Джефф Безос продолжает продавать акции своей компании, на этот раз на сумму более $3 миллиардов, согласно последнему нормативному документу, опубликованному в пятницу. Эта продажа более 16 миллионов акций произошла, когда акции Amazon снова приблизились к отметке $200 за акцию, что является самой высокой ценой с момента листинга компании на NASDAQ в 1997...
Передача эстафеты: Китайская космическая станция «Тяньгун» встретила новый экипаж «Шэньчжоу-19»
Китайская космическая станция «Тяньгун» официально передана новому экипажу «Шэньчжоу-19», который прибыл на станцию 30 октября после успешного запуска с космодрома Цзюцюань на северо-западе Китая. Командир «Шэньчжоу-18» Е Гуанфу, который недавно стал первым тайконавтом, проведшим в общей сложности 365 дней в космосе, передал символический ключ командиру «Шэньчжоу-19» Цаю...