- Более миллиона пользователей Steam добавили... (264)
- В Steam вышла демоверсия грандиозной... (261)
- «Я был плохим студентом»: автор покерного... (454)
- Европейцы начали ездить за HDD в США — так... (467)
- Nothing показала смартфон Phone (4a) в... (519)
- «Мы можем сделать сугубо станцию, сделанную... (525)
- Starlab завершила ключевую проверку с NASA и... (540)
- Когда ИИ становится филантропом: бот Lobstar... (257)
- Утечка объяснила, как работает защита от... (380)
- Для ChatGPT готовят новую подписку за 100... (353)
- «Даже местные разработчики ничего подобного... (402)
- Исследование показало: ИИ теряется в длинных... (451)
- Китайские бренды стремительно наступают.... (536)
- Папа Лев XIV призвал священников не... (542)
- «Приватный экран» в Samsung Galaxy S26 Ultra... (244)
- Разные режимы работы экрана Samsung Galaxy... (446)
Исследование показало: ИИ теряется в длинных диалогах и вводит пользователей в заблуждение
Дата: сегодня 15:05
Современные ИИ-лаборатории активно выпускают новые модели и чат-боты, чтобы закрепить свои бренды, но пользователи часто жалуются на их ошибки — от галлюцинаций до полностью неверных или вредоносных ответов.
Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4, и выявило серьёзные недостатки в многоходовых диалогах. Как оказалось, модели успешно справляются с одиночными запросами, достигая 90% точности, но при последовательных вопросах точность падает примерно до 65%.
Исследователи объясняют, что модели «спешат с ответом», стараясь завершить решение задачи до того, как пользователь закончит пояснение. Это приводит к феномену «ответного зацепления»: ИИ использует предыдущий ответ как основу для следующего, даже если он был неверен.
Изображение сгенерировано: Grok Кроме того, в длинных диалогах наблюдается «раздутие ответа»: длина ответов увеличивается от 20% до 300%, вводя больше предположений и потенциальных галлюцинаций, которые модель потом закрепляет как контекст. Несмотря на дополнительные механизмы "thinking tokens" в моделях вроде o3 и DeepSeek R1, проблемы остаются нерешёнными.
В целом исследование показало, что способность моделей оставаться «в диалоге» снизилась всего на 15%, но надёжность упала на 112%. Это подчёркивает, что падение производительности при многоходовых взаимодействиях не означает, что модели «стали глупыми», но демонстрирует их ограничение при работе в реальных условиях.
Авторы предупреждают, что массовое использование генеративного ИИ несёт риски: пользователи могут воспринимать сгенерированную информацию как достоверную, хотя она часто сопровождается ошибками и необоснованными предположениями.
Исследование подчёркивает, что технология пока что не достигла зрелости для критически важных сценариев, особенно в многоступенчатых диалогах, а модели продолжают быть более надёжными при одиночных запросах, чем в реальном, живом общении с пользователем.
Подробнее на iXBT
Предыдущие новости
Для ChatGPT готовят новую подписку за 100 долларов — это вдвое дешевле Pro-тарифа
OpenAI готовится к запуску нового тарифного плана под названием ChatGPT Pro Lite по цене 100 долларов в месяц. Разработчик Тибор Блахо обнаружил упоминания об этом плане в коде веб-приложения ChatGPT. В настоящее время OpenAI предлагает несколько тарифных планов подписки, включая Free, Go (8 долларов в месяц), Plus (20 долларов в месяц), Pro (200 долларов в месяц), Team,...
«Даже местные разработчики ничего подобного не делали»: трейлер Forza Horizon 6 с живописными видами Японии впечатлил геймеров
Издательство Xbox Game Studios и разработчики из британской студии Playground Games опубликовали новый геймплейный трейлер гоночной аркады с открытым миром Forza Horizon 6. Свежий ролик посвящён пейзажам Японии, на фоне которых будут разворачиваться гоночные состязания. Источник изображения: Xbox Game...
Папа Лев XIV призвал священников не использовать ИИ для проповедей
Папа Римский Лев XIV на закрытой встрече со священниками Римской епархии призвал духовенство не полагаться на искусственный интеллект при подготовке проповедей, уделять больше внимания молитве и развивать внутрицерковное братство. Встреча прошла 19 февраля в Ватикане, после публичного выступления понтифика, в котором он призвал священников «возродить огонь своего служения». В...
Китайские бренды стремительно наступают. Первой компанией из Поднебесной, которая продала более 1 млн машин в Европе и Великобритании, стала MG
Бренд MG компании SAIC стал первым китайским автомобильным брендом, совокупные продажи которого в Европе и Великобритании превысили миллион автомобилей. Компания MG, изначально британский автопроизводитель, была приобретена компанией Nanjing Automotive Corporation в 2005 году. Затем, в 2007 году, компания SAIC приобрела Nanjing Automotive Corporation. В 2025 году MG продала...