- Motorola Razr 70 Ultra показался на... (3233)
- Motorola Razr 70 Ultra показался на... (3614)
- Ветеран Microsoft рассказал, как Windows 95... (3891)
- Google представила ИИ для создания... (3583)
- Батарея 6500 мАч и 45 Вт, 120 Гц, IP64,... (3906)
- На БАК обнаружена новая тяжёлая частица:... (4565)
- На БАК обнаружена новая тяжёлая частица:... (3327)
- Подделка века? Фальшивый Samsung 990 Pro... (3383)
- Colliers: инвестиции в ЦОД впервые обогнали... (3840)
- General Motors начала тестирование новой... (3775)
- В Telegram появился ИИ-переписчик... (3861)
- Магнитное поле Земли защищает Луну от... (3390)
- «Яндекс Карты» научились подбирать заведения... (3592)
- Впервые в истории: телескоп «Хаббл»... (3905)
- SmartSens представила 1" 50-Мп сенсор... (3821)
- Philips представила 31,5-дюймовый игровой... (3366)
Исследование показало: ИИ теряется в длинных диалогах и вводит пользователей в заблуждение
Дата: 2026-02-23 15:05
Современные ИИ-лаборатории активно выпускают новые модели и чат-боты, чтобы закрепить свои бренды, но пользователи часто жалуются на их ошибки — от галлюцинаций до полностью неверных или вредоносных ответов.
Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4, и выявило серьёзные недостатки в многоходовых диалогах. Как оказалось, модели успешно справляются с одиночными запросами, достигая 90% точности, но при последовательных вопросах точность падает примерно до 65%.
Исследователи объясняют, что модели «спешат с ответом», стараясь завершить решение задачи до того, как пользователь закончит пояснение. Это приводит к феномену «ответного зацепления»: ИИ использует предыдущий ответ как основу для следующего, даже если он был неверен.
Изображение сгенерировано: Grok Кроме того, в длинных диалогах наблюдается «раздутие ответа»: длина ответов увеличивается от 20% до 300%, вводя больше предположений и потенциальных галлюцинаций, которые модель потом закрепляет как контекст. Несмотря на дополнительные механизмы "thinking tokens" в моделях вроде o3 и DeepSeek R1, проблемы остаются нерешёнными.
В целом исследование показало, что способность моделей оставаться «в диалоге» снизилась всего на 15%, но надёжность упала на 112%. Это подчёркивает, что падение производительности при многоходовых взаимодействиях не означает, что модели «стали глупыми», но демонстрирует их ограничение при работе в реальных условиях.
Авторы предупреждают, что массовое использование генеративного ИИ несёт риски: пользователи могут воспринимать сгенерированную информацию как достоверную, хотя она часто сопровождается ошибками и необоснованными предположениями.
Исследование подчёркивает, что технология пока что не достигла зрелости для критически важных сценариев, особенно в многоступенчатых диалогах, а модели продолжают быть более надёжными при одиночных запросах, чем в реальном, живом общении с пользователем.
Подробнее на iXBT
Предыдущие новости
Для ChatGPT готовят новую подписку за 100 долларов — это вдвое дешевле Pro-тарифа
OpenAI готовится к запуску нового тарифного плана под названием ChatGPT Pro Lite по цене 100 долларов в месяц. Разработчик Тибор Блахо обнаружил упоминания об этом плане в коде веб-приложения ChatGPT. В настоящее время OpenAI предлагает несколько тарифных планов подписки, включая Free, Go (8 долларов в месяц), Plus (20 долларов в месяц), Pro (200 долларов в месяц), Team,...
«Даже местные разработчики ничего подобного не делали»: трейлер Forza Horizon 6 с живописными видами Японии впечатлил геймеров
Издательство Xbox Game Studios и разработчики из британской студии Playground Games опубликовали новый геймплейный трейлер гоночной аркады с открытым миром Forza Horizon 6. Свежий ролик посвящён пейзажам Японии, на фоне которых будут разворачиваться гоночные состязания. Источник изображения: Xbox Game...
Папа Лев XIV призвал священников не использовать ИИ для проповедей
Папа Римский Лев XIV на закрытой встрече со священниками Римской епархии призвал духовенство не полагаться на искусственный интеллект при подготовке проповедей, уделять больше внимания молитве и развивать внутрицерковное братство. Встреча прошла 19 февраля в Ватикане, после публичного выступления понтифика, в котором он призвал священников «возродить огонь своего служения». В...
Китайские бренды стремительно наступают. Первой компанией из Поднебесной, которая продала более 1 млн машин в Европе и Великобритании, стала MG
Бренд MG компании SAIC стал первым китайским автомобильным брендом, совокупные продажи которого в Европе и Великобритании превысили миллион автомобилей. Компания MG, изначально британский автопроизводитель, была приобретена компанией Nanjing Automotive Corporation в 2005 году. Затем, в 2007 году, компания SAIC приобрела Nanjing Automotive Corporation. В 2025 году MG продала...