- Очень черный «Глендваген»: представлен... (1692)
- Apple Intelligence появится в ЕС только в... (1907)
- Ускоритель для ускорителя: Fujitsu... (1743)
- Apple Intelligence вышел на iPhone, iPad и... (1769)
- Геймплея нет, но вы держитесь: Bungie... (1831)
- Intel Core Ultra 200 пострадали от рук... (1833)
- Apple избавилась от порта Lightning в... (1794)
- В Steam стартовала хэллоуинская распродажа... (8471)
- Это новый модем Dial-Up за 40 долларов в... (1847)
- 8 Гбайт ОЗУ уходят в прошлое: новый Apple... (2096)
- Apple вернётся к дизайну культового iMac G4... (1901)
- Dragon Age: The Veilguard получила первые... (1850)
- Разъём USB-C у обновлённой мышки Apple Magic... (1575)
- Бренд Tecno анонсировал свой первый планшет... (1535)
- Стало известно, когда можно будет... (1562)
- Хотели обойти санкции США, но даже не... (1610)
Кризис достоверности в искусственном интеллекте: OpenAI показала, что LLM выдают ложные ответы в 60% случаев
Дата: 2024-11-03 23:03
Компания OpenAI представила новый бенчмарк под названием SimpleQA для оценки точности выходных данных собственных и конкурирующих моделей ИИ. Однако результаты тестирования выявили серьёзные проблемы с достоверностью информации, генерируемой современными крупными языковыми моделями (LLM).
Цель нового бенчмарка — обеспечить объективную оценку точности и надёжности LLM, которые всё чаще используются в различных сферах жизни, от образования и разработки программного обеспечения до здравоохранения и правоохранительных органов. Однако, как показало тестирование, даже самые передовые модели, такие как o1 от OpenAI и Claude-3.5-sonnet от Anthropic, демонстрируют крайне низкие показатели успешности - 42,7% и 28,9% соответственно.
Источник: Michael Dwyer / APПроблема усугубляется тем, что модели склонны «переоценивать свои возможности» и выдавать ответы, которые являются полной ерундой, известной как «галлюцинации». Эта тенденция хорошо документирована и может привести к серьёзным последствиям, особенно в таких чувствительных областях, как здравоохранение и правоохранительная деятельность. Например, модель ИИ, используемая в больницах и построенная на технологии OpenAI, была замечена в частых галлюцинациях и неточностях при расшифровке взаимодействий с пациентами. Полицейские в США также начинают использовать ИИ, что может привести к ложным обвинениям невиновных или усилению предубеждений.
По словам экспертов, результаты тестирования на бенчмарке SimpleQA являются тревожным сигналом о том, что нынешние LLM крайне неспособны достоверно говорить правду. «Это событие должно послужить напоминанием о том, что к любому результату работы любого LLM следует относиться с изрядной долей скептицизма и быть готовым тщательно проверять сгенерированный текст», — заявил представитель OpenAI.
Остаётся открытым вопрос, можно ли решить проблему достоверности LLM с помощью ещё больших обучающих наборов, как утверждают лидеры в области ИИ. Однако, по мнению некоторых экспертов, необходимо искать новые подходы к разработке моделей ИИ, которые бы обеспечивали более высокую точность и надёжность генерируемой информации. «Мы должны сосредоточиться на разработке моделей, которые могут не только генерировать правдоподобные ответы, но и оценивать их и отказываться от ответа, когда не уверены в достоверности», — отметил один из исследователей в области ИИ.
Результаты тестирования на бенчмарке SimpleQA подчёркивают необходимость дальнейших исследований и разработок в области искусственного интеллекта, чтобы обеспечить надёжность и достоверность генерируемой информации и предотвратить потенциальные негативные последствия использования LLM в различных сферах жизни.
Подробнее на iXBT
Предыдущие новости
Microsoft разоблачила китайскую группировку Storm-0940, использующую ботнет Quad7 для атак на клиентов
Компания Microsoft сообщила о выявлении сложной киберугрозы, исходящей от китайской группировки Storm-0940, которая использует ботнет Quad7, также известный как CovertNetwork-1658, для проведения атак методом «распыления паролей». Эти атаки нацелены на кражу учётных данных у нескольких клиентов Microsoft, включая организации в Северной Америке и Европе, такие как аналитические...
ESA и Институт SETI готовят человечество к контакту с внеземными цивилизациями: командой отца и дочери расшифрован первый сигнал
В 2023 году Европейское космическое агентство (ESA) и Институт SETI провели эксперимент под названием «Знак в космосе» (A Sign in Space), целью которого было проверить методы декодирования потенциальных сигналов от внеземных цивилизаций. В рамках этого проекта марсианский зонд ExoMars Trace Gas Orbiter передал на Землю закодированное сообщение, смоделированное как возможный...
Джефф Безос снова продаёт акции Amazon на $3 млрд
Основатель Amazon Джефф Безос продолжает продавать акции своей компании, на этот раз на сумму более $3 миллиардов, согласно последнему нормативному документу, опубликованному в пятницу. Эта продажа более 16 миллионов акций произошла, когда акции Amazon снова приблизились к отметке $200 за акцию, что является самой высокой ценой с момента листинга компании на NASDAQ в 1997...
Передача эстафеты: Китайская космическая станция «Тяньгун» встретила новый экипаж «Шэньчжоу-19»
Китайская космическая станция «Тяньгун» официально передана новому экипажу «Шэньчжоу-19», который прибыл на станцию 30 октября после успешного запуска с космодрома Цзюцюань на северо-западе Китая. Командир «Шэньчжоу-18» Е Гуанфу, который недавно стал первым тайконавтом, проведшим в общей сложности 365 дней в космосе, передал символический ключ командиру «Шэньчжоу-19» Цаю...