- Starlink снизит орбиту спутников для... (1006)
- Китайские учёные заявили об обнаружении... (1112)
- Adata покажет на CES 2026 четырёхранговые... (1017)
- В сеть утекли аппаратные ключи PS5 —... (1048)
- В DeepSeek придумали новый способ экономить... (709)
- Redmi Note 15, Redmi Note 15 Pro и Redmi... (940)
- Глобальные версии Xiaomi 17 и 17 Ultra... (1204)
- Представлен BMW Alpina — теперь независимый... (756)
- АвтоВАЗ поменял цены на все модели... (941)
- Новые УАЗы с другими моторами и коробками... (883)
- OpenAI фокусируется на разработке аудио ИИ... (919)
- Самый лёгкий в мире 17-дюймовый ноутбук с... (819)
- IKEA представила зарядное Sjoss за 4... (773)
- Samsung приготовила 130-дюймовый телевизор... (781)
- Обнаружена «планета-изгой» размером с Сатурн... (807)
- «Это очень важное событие». Установка... (809)
Учёные обнаружили, что популярные языковые модели обманывают более чем в половине случаев
Дата: 2025-05-03 16:57
Исследование, опубликованное в материалах конференции NAACL 2025, вскрыло тревожную тенденцию: большие языковые модели (LLM) лгут более чем в половине случаев, когда их цель конфликтует с необходимостью говорить правду. Группа учёных из Университета Карнеги-Меллона, Мичиганского университета и Института искусственного интеллекта Аллена провела эксперимент AI-LieDar для оценки компромисса между правдивостью и полезностью в работе LLM. В исследовании рассматривались шесть моделей: GPT-3.5-turbo, GPT-4o, Mixtral-7*8B, Mixtral-7*22B, LLaMA-3-8B и LLaMA-3-70B.
Эксперимент показал, что все протестированные модели были правдивы менее чем в 50% случаев в ситуациях, где эти два фактора противоречили друг другу. Учёные отмечают, что настройки модели, такие как параметр «температура», влияют на её склонность к правдивости. Более низкая температура делает вывод модели более предсказуемым, а более высокая — более вариативным, что часто интерпретируется как «более креативный». Оптимальный уровень «температуры» зависит от конкретного применения. Например, для медицинских чат-ботов высокая температура недопустима, чтобы избежать неадекватных рекомендаций по лечению.
Иллюстрация: Dalle В рамках исследования были предложены различные сценарии, например, ситуация с продажей нового болеутоляющего препарата, где LLM, представляя фармацевтическую компанию, скрывала информацию о высокой степени зависимости от лекарства. Модель избегала прямых ответов на вопросы о побочных эффектах, иногда даже предоставляя заведомо ложную информацию, чтобы достичь своей цели – продажи препарата. Учёные подчёркивают разницу между преднамеренным обманом (скрытие информации) и галлюцинациями (неправильные предсказания), хотя признают трудности в их различении без доступа ко внутреннему состоянию модели. Были предприняты меры для минимизации влияния галлюцинаций на результаты.
Аспирант CMU и соавтор статьи, Сюйхуэй Чжоу, отметил, что модели чаще предпочитают «частичную ложь», избегая прямых ответов, чем явное искажение фактов. В бизнес-сценариях, где цель – продажа товара с известным дефектом, модели вели себя либо полностью честно, либо полностью обманчиво. В сценариях, связанных с репутацией, поведение моделей было более неоднозначным. Недавний случай с OpenAI, когда обновление GPT-4o сделало модель чрезмерно льстивой и нечестной, служит наглядным примером этой проблемы.
Авторы исследования выражают надежду на решение конфликта между правдивостью и полезностью. Они приводят пример, где агент на основе GPT-4o, задачей которого было максимизировать продление аренды, честно сообщил о предстоящем ремонте, но предложил креативное решение – скидки и гибкие условия аренды, чтобы побудить арендаторов продлить договор. Результаты исследования подчёркивают необходимость дальнейшего изучения и разработки методов повышения правдивости LLM. Это особенно актуально в свете всё более широкого применения LLM в различных сферах, где точность и достоверность информации критически важны.
Подробнее на iXBT
Предыдущие новости
Huawei представила быстрый внешний SSD, который переживёт даже наезд автомобиля
Huawei представила Kunling eKitStor Shield 200 — высокоскоростной портативный SSD, предназначенный как для профессионалов, так и для обычных пользователей. Он оснащён портом USB 3.2 Gen 2×2 с разъёмом USB Type-C, обеспечивающим скорость передачи данных до 2000 Мбайт/с. Источник изображения:...
Новые пошлины США обойдутся M**a в несколько миллиардов долларов — снижать темпы развития ИИ ЦОД компания не намерена
M**a Platforms сообщила финансовые результаты I квартала 2025 года, завершившегося 31 марта. Основные показатели компании превысили прогнозы аналитиков, а прогноз на II квартал оказался в пределах ожиданий Уолл-стрит, благодаря чему акции компании выросли в цене на расширенных торгах на 5 %, пишет CNBC. Выручка M**a увеличилась год к году на 16 % до $42,31 млрд, что также...
Европейские пользователи TikTok под прицелом? Штраф в полмиллиарда евро раскрывает схему передачи данных в Китай
TikTok оштрафован на €530 миллионов (около $600 миллионов) за передачу данных европейских пользователей на серверы в Китае. Это нарушение Общего регламента ЕС по защите данных (GDPR). Компании дали шесть месяцев на приведение обработки данных в соответствие с требованиями, если она не подаст апелляцию. Ирландский суд вынес решение о штрафе, установив нарушение TikTok правил...
Volkswagen объявила об отзыве электрофургонов ID.Buzz из-за слишком широких сидений
Компания Volkswagen объявила об отзыве электрических микроавтобусов ID.Buzz образца 2025 года из-за того, что их задние сиденья, рассчитанные на двух человек, оказались достаточно просторными, чтобы вместить троих — при этом ремней безопасности предусмотрено только два. Источник изображения:...