- Intel признала устаревшей встроенную графику... (12)
- Galaxy AI, 4900 мА·ч, IP68, 7 лет обновлений... (12)
- Между велосипедом и автомобилем: представлен... (12)
- Найдётся всё: Китай запустил самый мощный в... (7)
- Кодзима показал первый постер шпионского... (8)
- Луна ржавеет под действием «ветра» с Земли:... (40)
- Dreame открыл в Москве флагманский магазин... (37)
- Кнопочные телефоны Nokia будут жить: HMD... (13)
- Открытая 10 сентября комета C/2025 R2 (SWAN)... (38)
- Российский бренд Tenet, который быстро... (41)
- NASA представило новую группу астронавтов... (35)
- Google снова попытаются разорвать на части —... (33)
- Учёные укротили свет в алмазах для прорыва в... (35)
- Дизайн в стиле Chevrolet Silverado и мотор... (79)
- Нейросеть «Алиса» теперь и в мессенджерах:... (87)
- Дизель от Ford, полный привод, понижающая... (75)
Миф о «разуме» ИИ развеян: исследование учёных показало, что LLM не способны к настоящему логическому рассуждению
Дата: 2025-08-14 16:08
Исследователи из Университета штата Аризона опубликовали работу, бросающую вызов распространённому мнению о способностях больших языковых моделей (LLM) к логическому рассуждению. В последние месяцы индустрия ИИ активно развивает так называемые рассуждающие модели, использующие «цепочку мыслей» (chain of thought) для решения сложных задач в несколько логических шагов. Однако недавние исследования ставят под сомнение наличие у этих моделей даже базового понимания общих логических концепций или точного представления о собственном «процессе мышления». Оказалось, что эти модели часто дают несогласованные и логически некорректные ответы, если вопросы содержат не относящиеся к делу пункты или незначительно отклоняются от стандартных шаблонов, встречающихся в их обучающих данных.
В своей работе учёные резюмируют существующие исследования, указывая на то, что большие языковые модели не являются «мыслителями», а скорее имитируют рассуждения. Для проверки этого предположения была создана DataAlchemy — среда для обучения LLM, в которой получилось измерить эффективность рассуждений по принципу «цепочки мысли» при решении логических задач, выходящих за рамки данных, использованных для обучения модели. Эти задачи не соответствовали специфическим логическим паттернам, присутствующим в обучающих данных.
Среда создаёт небольшие модели, обученные на примерах двух чрезвычайно простых текстовых преобразований с последующим дополнительным обучением, демонстрирующим выполнение этих двух функций в различных порядках и комбинациях. Так получилось контролировать процесс обучения и анализировать, как модель справляется с задачами, выходящими за рамки её базового обучения.

Результаты исследования показали, что значительные скачки производительности, наблюдаемые у моделей, использующих «цепочку мысли», являются «в значительной степени миражом», который «становится ненадёжным и подверженным ошибкам даже при умеренных изменениях распределения данных». Авторы утверждают, что вместо демонстрации истинного понимания текста, рассуждения по методу «цепочки мысли» при изменении задач, прибегают к воспроизведению шаблонов, усвоенных во время обучения.
Полученные данные указывают на то, что способность к логическому рассуждению у современных LLM, по крайней мере в рамках использованной методологии, значительно ниже, чем предполагалось ранее. Работа подчёркивает необходимость дальнейших исследований в области разработки более надёжных и обобщающих моделей искусственного интеллекта, способных справляться с нестандартными задачами и демонстрировать истинное понимание логических процессов, а не просто имитировать их.
Подробнее на iXBT
Предыдущие новости
Сбер выпустил большое обновление умных колонок Sber с ИИ GigaChat — быстрые команды, детский профиль и многое другое
Команда Сбера выпустила масштабное обновление фирменных умных колонок Sber, расширяя функциональность самих устройств и виртуального ассистента «Салют». Иллюстрация: Сбер Колонки SberBoom научились выполнять быстрые команды без обращения к ассистенту «Салют» по имени. Управление музыкальным контентом стало проще, достаточно сказать:«пауза», «громкость 50%», «дальше»,...
Самый продаваемый пикап в России получил новый тяговитый мотор: рама, полный привод, 163 л.с. и 8-ступенчатый «автомат» — за 3,76 млн рублей
До недавнего времени пикап JAC T9 — самая покупаемая модель в России в своей категории — оснащался только бензиновым 2,0-литровым мотором, который не очень подходит машине такого класса. Сейчас появилась альтернатива — 2,0-литровый дизельный двигатель мощностью 163 л.с. Он сочетается с 8-ступенчатым «автоматом» и системой полного привода с механической блокировкой заднего...
Совкомбанк собрался обанкротить одного из крупнейших производителей электроники в России — холдинг Fplus
Совкомбанк намерен обратиться в суд для признания IT-холдинга Fplus банкротом. Банк планирует подать иски против трёх юрлиц Fplus, включая головную структуру компании. Источник изображений:
В Rutube теперь можно поддержать деньгами автора прямо под видео
Команда отечественного видеохостинга Rutube расширила возможности пожертвований в пользу авторов. В новой версии приложения под номером 30.8 для Android стали доступны «донаты» не только во время трансляций, но и прямо под видео или на канале автора. Об этом сообщила пресс-служба «Газпром-Медиа Холдинга». Сгенерировано нейросетью Midjourney Директор продукта Rutube Ника...