- Windows XP, Windows Vista, Windows 7,... (1338)
- «Ситуация беспрецедентна»: глава Samsung... (881)
- Выглядит, как VHS-кассета и виниловый... (885)
- Новая версия One UI 8.5 вышла для Samsung... (808)
- «Samsung вернулась». Клиенты компании... (940)
- Мультяшный WALL-E стал реальностью —... (1335)
- Представлен самый тонкий в мире... (1359)
- LG показала робота-дворецкого CLOiD — он... (1266)
- «Удлинить» сигнал HDMI на 40 метров без... (743)
- Kia продала в 2025 году рекордные 3,13 млн... (1154)
- LG создала 16-дюймовый ноутбук легче MacBook... (765)
- Из-за бездействия Valve фанатский ремейк... (1213)
- Samsung представила первый в мире 130"... (920)
- Honda остановила три завода на две недели,... (1210)
- Представлены AR-очки Xreal 1S за $449 —... (1264)
- Snapdragon X2 Elite Extreme будет первой... (904)
Учёные обнаружили, что популярные языковые модели обманывают более чем в половине случаев
Дата: 2025-05-03 16:57
Исследование, опубликованное в материалах конференции NAACL 2025, вскрыло тревожную тенденцию: большие языковые модели (LLM) лгут более чем в половине случаев, когда их цель конфликтует с необходимостью говорить правду. Группа учёных из Университета Карнеги-Меллона, Мичиганского университета и Института искусственного интеллекта Аллена провела эксперимент AI-LieDar для оценки компромисса между правдивостью и полезностью в работе LLM. В исследовании рассматривались шесть моделей: GPT-3.5-turbo, GPT-4o, Mixtral-7*8B, Mixtral-7*22B, LLaMA-3-8B и LLaMA-3-70B.
Эксперимент показал, что все протестированные модели были правдивы менее чем в 50% случаев в ситуациях, где эти два фактора противоречили друг другу. Учёные отмечают, что настройки модели, такие как параметр «температура», влияют на её склонность к правдивости. Более низкая температура делает вывод модели более предсказуемым, а более высокая — более вариативным, что часто интерпретируется как «более креативный». Оптимальный уровень «температуры» зависит от конкретного применения. Например, для медицинских чат-ботов высокая температура недопустима, чтобы избежать неадекватных рекомендаций по лечению.
Иллюстрация: Dalle В рамках исследования были предложены различные сценарии, например, ситуация с продажей нового болеутоляющего препарата, где LLM, представляя фармацевтическую компанию, скрывала информацию о высокой степени зависимости от лекарства. Модель избегала прямых ответов на вопросы о побочных эффектах, иногда даже предоставляя заведомо ложную информацию, чтобы достичь своей цели – продажи препарата. Учёные подчёркивают разницу между преднамеренным обманом (скрытие информации) и галлюцинациями (неправильные предсказания), хотя признают трудности в их различении без доступа ко внутреннему состоянию модели. Были предприняты меры для минимизации влияния галлюцинаций на результаты.
Аспирант CMU и соавтор статьи, Сюйхуэй Чжоу, отметил, что модели чаще предпочитают «частичную ложь», избегая прямых ответов, чем явное искажение фактов. В бизнес-сценариях, где цель – продажа товара с известным дефектом, модели вели себя либо полностью честно, либо полностью обманчиво. В сценариях, связанных с репутацией, поведение моделей было более неоднозначным. Недавний случай с OpenAI, когда обновление GPT-4o сделало модель чрезмерно льстивой и нечестной, служит наглядным примером этой проблемы.
Авторы исследования выражают надежду на решение конфликта между правдивостью и полезностью. Они приводят пример, где агент на основе GPT-4o, задачей которого было максимизировать продление аренды, честно сообщил о предстоящем ремонте, но предложил креативное решение – скидки и гибкие условия аренды, чтобы побудить арендаторов продлить договор. Результаты исследования подчёркивают необходимость дальнейшего изучения и разработки методов повышения правдивости LLM. Это особенно актуально в свете всё более широкого применения LLM в различных сферах, где точность и достоверность информации критически важны.
Подробнее на iXBT
Предыдущие новости
Huawei представила быстрый внешний SSD, который переживёт даже наезд автомобиля
Huawei представила Kunling eKitStor Shield 200 — высокоскоростной портативный SSD, предназначенный как для профессионалов, так и для обычных пользователей. Он оснащён портом USB 3.2 Gen 2×2 с разъёмом USB Type-C, обеспечивающим скорость передачи данных до 2000 Мбайт/с. Источник изображения:...
Новые пошлины США обойдутся M**a в несколько миллиардов долларов — снижать темпы развития ИИ ЦОД компания не намерена
M**a Platforms сообщила финансовые результаты I квартала 2025 года, завершившегося 31 марта. Основные показатели компании превысили прогнозы аналитиков, а прогноз на II квартал оказался в пределах ожиданий Уолл-стрит, благодаря чему акции компании выросли в цене на расширенных торгах на 5 %, пишет CNBC. Выручка M**a увеличилась год к году на 16 % до $42,31 млрд, что также...
Европейские пользователи TikTok под прицелом? Штраф в полмиллиарда евро раскрывает схему передачи данных в Китай
TikTok оштрафован на €530 миллионов (около $600 миллионов) за передачу данных европейских пользователей на серверы в Китае. Это нарушение Общего регламента ЕС по защите данных (GDPR). Компании дали шесть месяцев на приведение обработки данных в соответствие с требованиями, если она не подаст апелляцию. Ирландский суд вынес решение о штрафе, установив нарушение TikTok правил...
Volkswagen объявила об отзыве электрофургонов ID.Buzz из-за слишком широких сидений
Компания Volkswagen объявила об отзыве электрических микроавтобусов ID.Buzz образца 2025 года из-за того, что их задние сиденья, рассчитанные на двух человек, оказались достаточно просторными, чтобы вместить троих — при этом ремней безопасности предусмотрено только два. Источник изображения:...