- Премиум-бренд Hyundai готовит убийцу BMW M5... (1203)
- Белорусские власти заблокировали доступ к... (1284)
- DeepSeek заподозрили в обучении новейшего ИИ... (906)
- DeepSeek заподозрили в использовании... (1325)
- Большой семейный кроссовер с пожизненной... (1546)
- Есть полмиллиона: продажи внедорожников Tank... (985)
- Землю накрыла магнитная буря после... (919)
- Volkswagen Golf и Toyota Corolla,... (1199)
- В Китае назвали лучшие гибриды и... (1298)
- В Китае назвали лучшие гибриды и... (1007)
- В 2026 году Lada Vesta, Lada Iskra и Lada... (951)
- Финальная HyperOS 3 на Android 16 вышла для... (1417)
- В России открылся предзаказ на обновленный... (1383)
- Qualcomm купила разработчика серверных... (1407)
- Kioxia выпустила твердотельные накопители... (761)
- NASA «прокручивает» посадку на Луну на Земле... (1534)
Миф о «разуме» ИИ развеян: исследование учёных показало, что LLM не способны к настоящему логическому рассуждению
Дата: 2025-08-14 16:08
Исследователи из Университета штата Аризона опубликовали работу, бросающую вызов распространённому мнению о способностях больших языковых моделей (LLM) к логическому рассуждению. В последние месяцы индустрия ИИ активно развивает так называемые рассуждающие модели, использующие «цепочку мыслей» (chain of thought) для решения сложных задач в несколько логических шагов. Однако недавние исследования ставят под сомнение наличие у этих моделей даже базового понимания общих логических концепций или точного представления о собственном «процессе мышления». Оказалось, что эти модели часто дают несогласованные и логически некорректные ответы, если вопросы содержат не относящиеся к делу пункты или незначительно отклоняются от стандартных шаблонов, встречающихся в их обучающих данных.
В своей работе учёные резюмируют существующие исследования, указывая на то, что большие языковые модели не являются «мыслителями», а скорее имитируют рассуждения. Для проверки этого предположения была создана DataAlchemy — среда для обучения LLM, в которой получилось измерить эффективность рассуждений по принципу «цепочки мысли» при решении логических задач, выходящих за рамки данных, использованных для обучения модели. Эти задачи не соответствовали специфическим логическим паттернам, присутствующим в обучающих данных.
Среда создаёт небольшие модели, обученные на примерах двух чрезвычайно простых текстовых преобразований с последующим дополнительным обучением, демонстрирующим выполнение этих двух функций в различных порядках и комбинациях. Так получилось контролировать процесс обучения и анализировать, как модель справляется с задачами, выходящими за рамки её базового обучения.
Иллюстрация: Sora Результаты исследования показали, что значительные скачки производительности, наблюдаемые у моделей, использующих «цепочку мысли», являются «в значительной степени миражом», который «становится ненадёжным и подверженным ошибкам даже при умеренных изменениях распределения данных». Авторы утверждают, что вместо демонстрации истинного понимания текста, рассуждения по методу «цепочки мысли» при изменении задач, прибегают к воспроизведению шаблонов, усвоенных во время обучения.
Полученные данные указывают на то, что способность к логическому рассуждению у современных LLM, по крайней мере в рамках использованной методологии, значительно ниже, чем предполагалось ранее. Работа подчёркивает необходимость дальнейших исследований в области разработки более надёжных и обобщающих моделей искусственного интеллекта, способных справляться с нестандартными задачами и демонстрировать истинное понимание логических процессов, а не просто имитировать их.
Подробнее на iXBT
Предыдущие новости
Сбер выпустил большое обновление умных колонок Sber с ИИ GigaChat — быстрые команды, детский профиль и многое другое
Команда Сбера выпустила масштабное обновление фирменных умных колонок Sber, расширяя функциональность самих устройств и виртуального ассистента «Салют». Иллюстрация: Сбер Колонки SberBoom научились выполнять быстрые команды без обращения к ассистенту «Салют» по имени. Управление музыкальным контентом стало проще, достаточно сказать:«пауза», «громкость 50%», «дальше»,...
Самый продаваемый пикап в России получил новый тяговитый мотор: рама, полный привод, 163 л.с. и 8-ступенчатый «автомат» — за 3,76 млн рублей
До недавнего времени пикап JAC T9 — самая покупаемая модель в России в своей категории — оснащался только бензиновым 2,0-литровым мотором, который не очень подходит машине такого класса. Сейчас появилась альтернатива — 2,0-литровый дизельный двигатель мощностью 163 л.с. Он сочетается с 8-ступенчатым «автоматом» и системой полного привода с механической блокировкой заднего...
Совкомбанк собрался обанкротить одного из крупнейших производителей электроники в России — холдинг Fplus
Совкомбанк намерен обратиться в суд для признания IT-холдинга Fplus банкротом. Банк планирует подать иски против трёх юрлиц Fplus, включая головную структуру компании. Источник изображений:
В Rutube теперь можно поддержать деньгами автора прямо под видео
Команда отечественного видеохостинга Rutube расширила возможности пожертвований в пользу авторов. В новой версии приложения под номером 30.8 для Android стали доступны «донаты» не только во время трансляций, но и прямо под видео или на канале автора. Об этом сообщила пресс-служба «Газпром-Медиа Холдинга». Сгенерировано нейросетью Midjourney Директор продукта Rutube Ника...