- У этого литрового мини-ПК есть откидной... (4929)
- Свежий драйвер Intel ускорит загрузку игр не... (5079)
- M**a по просьбам «небезразличных фанатов»... (5281)
- Waymo похвасталась, что её беспилотные такси... (5329)
- 25 марта Intel представит две новые... (6834)
- Беспроводные наушники за 33 доллара со 130... (6155)
- Новая статья: Воспитаем AGI в своём... (5393)
- Так ли хорош MacBook Neo по сравнению с... (5660)
- Легче стали в три раза, но такой же прочный:... (5553)
- В США построили огромную ракету SLS для... (5696)
- Кто прочнее: iPhone 17 Pro Max или Samsung... (5626)
- Apple не откажется от Liquid Glass, но даст... (5793)
- Энтузиасты делают то, что не делает AMD.... (6296)
- iPhone 17e оказался популярнее iPhone 16e в... (5175)
- Galaxy S26 Ultra действительно поддерживает... (5993)
- 7 лет автономной работы, алюминиевый корпус,... (4958)
Исследование показало: ИИ теряется в длинных диалогах и вводит пользователей в заблуждение
Дата: 2026-02-23 15:05
Современные ИИ-лаборатории активно выпускают новые модели и чат-боты, чтобы закрепить свои бренды, но пользователи часто жалуются на их ошибки — от галлюцинаций до полностью неверных или вредоносных ответов.
Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4, и выявило серьёзные недостатки в многоходовых диалогах. Как оказалось, модели успешно справляются с одиночными запросами, достигая 90% точности, но при последовательных вопросах точность падает примерно до 65%.
Исследователи объясняют, что модели «спешат с ответом», стараясь завершить решение задачи до того, как пользователь закончит пояснение. Это приводит к феномену «ответного зацепления»: ИИ использует предыдущий ответ как основу для следующего, даже если он был неверен.
Изображение сгенерировано: Grok Кроме того, в длинных диалогах наблюдается «раздутие ответа»: длина ответов увеличивается от 20% до 300%, вводя больше предположений и потенциальных галлюцинаций, которые модель потом закрепляет как контекст. Несмотря на дополнительные механизмы "thinking tokens" в моделях вроде o3 и DeepSeek R1, проблемы остаются нерешёнными.
В целом исследование показало, что способность моделей оставаться «в диалоге» снизилась всего на 15%, но надёжность упала на 112%. Это подчёркивает, что падение производительности при многоходовых взаимодействиях не означает, что модели «стали глупыми», но демонстрирует их ограничение при работе в реальных условиях.
Авторы предупреждают, что массовое использование генеративного ИИ несёт риски: пользователи могут воспринимать сгенерированную информацию как достоверную, хотя она часто сопровождается ошибками и необоснованными предположениями.
Исследование подчёркивает, что технология пока что не достигла зрелости для критически важных сценариев, особенно в многоступенчатых диалогах, а модели продолжают быть более надёжными при одиночных запросах, чем в реальном, живом общении с пользователем.
Подробнее на iXBT
Предыдущие новости
Для ChatGPT готовят новую подписку за 100 долларов — это вдвое дешевле Pro-тарифа
OpenAI готовится к запуску нового тарифного плана под названием ChatGPT Pro Lite по цене 100 долларов в месяц. Разработчик Тибор Блахо обнаружил упоминания об этом плане в коде веб-приложения ChatGPT. В настоящее время OpenAI предлагает несколько тарифных планов подписки, включая Free, Go (8 долларов в месяц), Plus (20 долларов в месяц), Pro (200 долларов в месяц), Team,...
«Даже местные разработчики ничего подобного не делали»: трейлер Forza Horizon 6 с живописными видами Японии впечатлил геймеров
Издательство Xbox Game Studios и разработчики из британской студии Playground Games опубликовали новый геймплейный трейлер гоночной аркады с открытым миром Forza Horizon 6. Свежий ролик посвящён пейзажам Японии, на фоне которых будут разворачиваться гоночные состязания. Источник изображения: Xbox Game...
Папа Лев XIV призвал священников не использовать ИИ для проповедей
Папа Римский Лев XIV на закрытой встрече со священниками Римской епархии призвал духовенство не полагаться на искусственный интеллект при подготовке проповедей, уделять больше внимания молитве и развивать внутрицерковное братство. Встреча прошла 19 февраля в Ватикане, после публичного выступления понтифика, в котором он призвал священников «возродить огонь своего служения». В...
Китайские бренды стремительно наступают. Первой компанией из Поднебесной, которая продала более 1 млн машин в Европе и Великобритании, стала MG
Бренд MG компании SAIC стал первым китайским автомобильным брендом, совокупные продажи которого в Европе и Великобритании превысили миллион автомобилей. Компания MG, изначально британский автопроизводитель, была приобретена компанией Nanjing Automotive Corporation в 2005 году. Затем, в 2007 году, компания SAIC приобрела Nanjing Automotive Corporation. В 2025 году MG продала...