- Китай показал «космическую заправку»:... (27)
- Google упростила «переезд» в Gemini из... (18)
- Samsung разработала QuantumBlack — покрытие... (13)
- Huawei усилила Ascend 950PR совместимостью с... (20)
- Представлены новейшие телевизоры Sony Bravia... (29)
- Максим и Никита оказались в числе самых... (19)
- OnePlus сообщила о безумном росте цен на... (23)
- В Европе создают спутник с «бесконечным»... (62)
- Huawei представила новую конструкцию... (25)
- ЕС притормозил спорный «Закон об ИИ», но... (22)
- Учёные обнаружили материал с переключаемыми... (63)
- Samsung теряет ключевой рынок: доля складных... (53)
- The Expanse: Osiris Reborn создаётся при... (8)
- Миссия IXPE изучила остаток сверхновой RCW... (51)
- Человекоподобные роботы уже заменяют людей:... (52)
- Китайский телескоп LAMOST выпустил... (51)
Исследование показало: ИИ теряется в длинных диалогах и вводит пользователей в заблуждение
Дата: 2026-02-23 15:05
Современные ИИ-лаборатории активно выпускают новые модели и чат-боты, чтобы закрепить свои бренды, но пользователи часто жалуются на их ошибки — от галлюцинаций до полностью неверных или вредоносных ответов.
Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4, и выявило серьёзные недостатки в многоходовых диалогах. Как оказалось, модели успешно справляются с одиночными запросами, достигая 90% точности, но при последовательных вопросах точность падает примерно до 65%.
Исследователи объясняют, что модели «спешат с ответом», стараясь завершить решение задачи до того, как пользователь закончит пояснение. Это приводит к феномену «ответного зацепления»: ИИ использует предыдущий ответ как основу для следующего, даже если он был неверен.
Изображение сгенерировано: Grok Кроме того, в длинных диалогах наблюдается «раздутие ответа»: длина ответов увеличивается от 20% до 300%, вводя больше предположений и потенциальных галлюцинаций, которые модель потом закрепляет как контекст. Несмотря на дополнительные механизмы "thinking tokens" в моделях вроде o3 и DeepSeek R1, проблемы остаются нерешёнными.
В целом исследование показало, что способность моделей оставаться «в диалоге» снизилась всего на 15%, но надёжность упала на 112%. Это подчёркивает, что падение производительности при многоходовых взаимодействиях не означает, что модели «стали глупыми», но демонстрирует их ограничение при работе в реальных условиях.
Авторы предупреждают, что массовое использование генеративного ИИ несёт риски: пользователи могут воспринимать сгенерированную информацию как достоверную, хотя она часто сопровождается ошибками и необоснованными предположениями.
Исследование подчёркивает, что технология пока что не достигла зрелости для критически важных сценариев, особенно в многоступенчатых диалогах, а модели продолжают быть более надёжными при одиночных запросах, чем в реальном, живом общении с пользователем.
Подробнее на iXBT
Предыдущие новости
Для ChatGPT готовят новую подписку за 100 долларов — это вдвое дешевле Pro-тарифа
OpenAI готовится к запуску нового тарифного плана под названием ChatGPT Pro Lite по цене 100 долларов в месяц. Разработчик Тибор Блахо обнаружил упоминания об этом плане в коде веб-приложения ChatGPT. В настоящее время OpenAI предлагает несколько тарифных планов подписки, включая Free, Go (8 долларов в месяц), Plus (20 долларов в месяц), Pro (200 долларов в месяц), Team,...
«Даже местные разработчики ничего подобного не делали»: трейлер Forza Horizon 6 с живописными видами Японии впечатлил геймеров
Издательство Xbox Game Studios и разработчики из британской студии Playground Games опубликовали новый геймплейный трейлер гоночной аркады с открытым миром Forza Horizon 6. Свежий ролик посвящён пейзажам Японии, на фоне которых будут разворачиваться гоночные состязания. Источник изображения: Xbox Game...
Папа Лев XIV призвал священников не использовать ИИ для проповедей
Папа Римский Лев XIV на закрытой встрече со священниками Римской епархии призвал духовенство не полагаться на искусственный интеллект при подготовке проповедей, уделять больше внимания молитве и развивать внутрицерковное братство. Встреча прошла 19 февраля в Ватикане, после публичного выступления понтифика, в котором он призвал священников «возродить огонь своего служения». В...
Китайские бренды стремительно наступают. Первой компанией из Поднебесной, которая продала более 1 млн машин в Европе и Великобритании, стала MG
Бренд MG компании SAIC стал первым китайским автомобильным брендом, совокупные продажи которого в Европе и Великобритании превысили миллион автомобилей. Компания MG, изначально британский автопроизводитель, была приобретена компанией Nanjing Automotive Corporation в 2005 году. Затем, в 2007 году, компания SAIC приобрела Nanjing Automotive Corporation. В 2025 году MG продала...