- «Телефон мечты для любителей маленьких... (1204)
- Новые кроссоверы Volvo могут загореться:... (815)
- Li Auto покоряет Европу: компания вступила в... (782)
- Представлен совершенно новый Toyota... (714)
- Samsung Galaxy S26 Ultra и iQOO 15 Ultra... (1200)
- В Россию приехали сотни Li Auto с... (1026)
- Lamborghini свернула разработку... (714)
- Lamborghini отказалась от создания чисто... (1156)
- ИИ Gemini сломал поиск на смарт-телевизорах... (1021)
- Немецкий сайт Asus ожил — доступ к драйверам... (847)
- ИИ пересказал «Гарри Поттера» и другие книги... (1230)
- ASML разогнала EUV до киловатта —... (882)
- Новая статья: Обзор смартфона Sony Xperia 1... (914)
- Новая статья: Система жидкостного охлаждения... (1164)
- Календарь релизов — с 23 февраля до 1 марта:... (1101)
- Автопром готов предложить машины, где за... (1047)
Исследование показало: ИИ теряется в длинных диалогах и вводит пользователей в заблуждение
Дата: 2026-02-23 15:05
Современные ИИ-лаборатории активно выпускают новые модели и чат-боты, чтобы закрепить свои бренды, но пользователи часто жалуются на их ошибки — от галлюцинаций до полностью неверных или вредоносных ответов.
Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4, и выявило серьёзные недостатки в многоходовых диалогах. Как оказалось, модели успешно справляются с одиночными запросами, достигая 90% точности, но при последовательных вопросах точность падает примерно до 65%.
Исследователи объясняют, что модели «спешат с ответом», стараясь завершить решение задачи до того, как пользователь закончит пояснение. Это приводит к феномену «ответного зацепления»: ИИ использует предыдущий ответ как основу для следующего, даже если он был неверен.
Изображение сгенерировано: Grok Кроме того, в длинных диалогах наблюдается «раздутие ответа»: длина ответов увеличивается от 20% до 300%, вводя больше предположений и потенциальных галлюцинаций, которые модель потом закрепляет как контекст. Несмотря на дополнительные механизмы "thinking tokens" в моделях вроде o3 и DeepSeek R1, проблемы остаются нерешёнными.
В целом исследование показало, что способность моделей оставаться «в диалоге» снизилась всего на 15%, но надёжность упала на 112%. Это подчёркивает, что падение производительности при многоходовых взаимодействиях не означает, что модели «стали глупыми», но демонстрирует их ограничение при работе в реальных условиях.
Авторы предупреждают, что массовое использование генеративного ИИ несёт риски: пользователи могут воспринимать сгенерированную информацию как достоверную, хотя она часто сопровождается ошибками и необоснованными предположениями.
Исследование подчёркивает, что технология пока что не достигла зрелости для критически важных сценариев, особенно в многоступенчатых диалогах, а модели продолжают быть более надёжными при одиночных запросах, чем в реальном, живом общении с пользователем.
Подробнее на iXBT
Предыдущие новости
Для ChatGPT готовят новую подписку за 100 долларов — это вдвое дешевле Pro-тарифа
OpenAI готовится к запуску нового тарифного плана под названием ChatGPT Pro Lite по цене 100 долларов в месяц. Разработчик Тибор Блахо обнаружил упоминания об этом плане в коде веб-приложения ChatGPT. В настоящее время OpenAI предлагает несколько тарифных планов подписки, включая Free, Go (8 долларов в месяц), Plus (20 долларов в месяц), Pro (200 долларов в месяц), Team,...
«Даже местные разработчики ничего подобного не делали»: трейлер Forza Horizon 6 с живописными видами Японии впечатлил геймеров
Издательство Xbox Game Studios и разработчики из британской студии Playground Games опубликовали новый геймплейный трейлер гоночной аркады с открытым миром Forza Horizon 6. Свежий ролик посвящён пейзажам Японии, на фоне которых будут разворачиваться гоночные состязания. Источник изображения: Xbox Game...
Папа Лев XIV призвал священников не использовать ИИ для проповедей
Папа Римский Лев XIV на закрытой встрече со священниками Римской епархии призвал духовенство не полагаться на искусственный интеллект при подготовке проповедей, уделять больше внимания молитве и развивать внутрицерковное братство. Встреча прошла 19 февраля в Ватикане, после публичного выступления понтифика, в котором он призвал священников «возродить огонь своего служения». В...
Китайские бренды стремительно наступают. Первой компанией из Поднебесной, которая продала более 1 млн машин в Европе и Великобритании, стала MG
Бренд MG компании SAIC стал первым китайским автомобильным брендом, совокупные продажи которого в Европе и Великобритании превысили миллион автомобилей. Компания MG, изначально британский автопроизводитель, была приобретена компанией Nanjing Automotive Corporation в 2005 году. Затем, в 2007 году, компания SAIC приобрела Nanjing Automotive Corporation. В 2025 году MG продала...