- Nvidia показала очень маленькую, но очень... (598)
- Nvidia показала на CES 2025 компактную, но... (599)
- AMD внезапно представила шестиядерный... (495)
- Google формирует команду для «моделирования... (511)
- 6000 мАч, 80 Вт, Snapdragon 8 Gen 3, IP65 и... (697)
- Новые подробности о видеокартах Radeon RX... (706)
- Asus представила тонкие ноутбуки Vivobook 14... (662)
- Хакеры заявили, что украли терабайт данных... (662)
- Asus представила внешнюю видеокарту ROG XG... (703)
- Это примерно как GeForce GTX 780 заменить на... (696)
- Nvidia обновила список компактных видеокарт... (763)
- Новая статья: Итоги 2024 года: игровые... (879)
- Sony представила геймпад и аксессуары для... (855)
- «Просто за гранью безумия»: первый сезон... (866)
- Вот теперь ноутбуки на Snapdragon будут... (766)
- От искры до пожара: дата-центры вредят... (870)
Кризис достоверности в искусственном интеллекте: OpenAI показала, что LLM выдают ложные ответы в 60% случаев
Дата: 2024-11-03 23:03
Компания OpenAI представила новый бенчмарк под названием SimpleQA для оценки точности выходных данных собственных и конкурирующих моделей ИИ. Однако результаты тестирования выявили серьёзные проблемы с достоверностью информации, генерируемой современными крупными языковыми моделями (LLM).
Цель нового бенчмарка — обеспечить объективную оценку точности и надёжности LLM, которые всё чаще используются в различных сферах жизни, от образования и разработки программного обеспечения до здравоохранения и правоохранительных органов. Однако, как показало тестирование, даже самые передовые модели, такие как o1 от OpenAI и Claude-3.5-sonnet от Anthropic, демонстрируют крайне низкие показатели успешности - 42,7% и 28,9% соответственно.
Источник: Michael Dwyer / APПроблема усугубляется тем, что модели склонны «переоценивать свои возможности» и выдавать ответы, которые являются полной ерундой, известной как «галлюцинации». Эта тенденция хорошо документирована и может привести к серьёзным последствиям, особенно в таких чувствительных областях, как здравоохранение и правоохранительная деятельность. Например, модель ИИ, используемая в больницах и построенная на технологии OpenAI, была замечена в частых галлюцинациях и неточностях при расшифровке взаимодействий с пациентами. Полицейские в США также начинают использовать ИИ, что может привести к ложным обвинениям невиновных или усилению предубеждений.
По словам экспертов, результаты тестирования на бенчмарке SimpleQA являются тревожным сигналом о том, что нынешние LLM крайне неспособны достоверно говорить правду. «Это событие должно послужить напоминанием о том, что к любому результату работы любого LLM следует относиться с изрядной долей скептицизма и быть готовым тщательно проверять сгенерированный текст», — заявил представитель OpenAI.
Остаётся открытым вопрос, можно ли решить проблему достоверности LLM с помощью ещё больших обучающих наборов, как утверждают лидеры в области ИИ. Однако, по мнению некоторых экспертов, необходимо искать новые подходы к разработке моделей ИИ, которые бы обеспечивали более высокую точность и надёжность генерируемой информации. «Мы должны сосредоточиться на разработке моделей, которые могут не только генерировать правдоподобные ответы, но и оценивать их и отказываться от ответа, когда не уверены в достоверности», — отметил один из исследователей в области ИИ.
Результаты тестирования на бенчмарке SimpleQA подчёркивают необходимость дальнейших исследований и разработок в области искусственного интеллекта, чтобы обеспечить надёжность и достоверность генерируемой информации и предотвратить потенциальные негативные последствия использования LLM в различных сферах жизни.
Подробнее на iXBT
Предыдущие новости
Microsoft разоблачила китайскую группировку Storm-0940, использующую ботнет Quad7 для атак на клиентов
Компания Microsoft сообщила о выявлении сложной киберугрозы, исходящей от китайской группировки Storm-0940, которая использует ботнет Quad7, также известный как CovertNetwork-1658, для проведения атак методом «распыления паролей». Эти атаки нацелены на кражу учётных данных у нескольких клиентов Microsoft, включая организации в Северной Америке и Европе, такие как аналитические...
ESA и Институт SETI готовят человечество к контакту с внеземными цивилизациями: командой отца и дочери расшифрован первый сигнал
В 2023 году Европейское космическое агентство (ESA) и Институт SETI провели эксперимент под названием «Знак в космосе» (A Sign in Space), целью которого было проверить методы декодирования потенциальных сигналов от внеземных цивилизаций. В рамках этого проекта марсианский зонд ExoMars Trace Gas Orbiter передал на Землю закодированное сообщение, смоделированное как возможный...
Джефф Безос снова продаёт акции Amazon на $3 млрд
Основатель Amazon Джефф Безос продолжает продавать акции своей компании, на этот раз на сумму более $3 миллиардов, согласно последнему нормативному документу, опубликованному в пятницу. Эта продажа более 16 миллионов акций произошла, когда акции Amazon снова приблизились к отметке $200 за акцию, что является самой высокой ценой с момента листинга компании на NASDAQ в 1997...
Передача эстафеты: Китайская космическая станция «Тяньгун» встретила новый экипаж «Шэньчжоу-19»
Китайская космическая станция «Тяньгун» официально передана новому экипажу «Шэньчжоу-19», который прибыл на станцию 30 октября после успешного запуска с космодрома Цзюцюань на северо-западе Китая. Командир «Шэньчжоу-18» Е Гуанфу, который недавно стал первым тайконавтом, проведшим в общей сложности 365 дней в космосе, передал символический ключ командиру «Шэньчжоу-19» Цаю...