- «С нетерпением ждём возможности их... (723)
- Новейшая российская ИИ-буровая установка ZBO... (503)
- Большой AMOLED-экран 120 Гц, аккумулятор... (645)
- Яркий AMOLED-экран 3200 нит, батарея 6500... (716)
- Землетрясение в Японии тряхнуло фабрики... (411)
- Сильное землетрясение в Японии нарушило... (525)
- «Каждая складка открывает новые... (628)
- АвтоВАЗ ещё до выхода новейшего кроссовера... (650)
- 8 лет гарантии, адаптация для России, 469... (475)
- Одна из самых надёжных ракет тяжёлого класса... (496)
- Новая полноприводная Skoda Octavia поступила... (510)
- Цены упали до уровней 2023 года: подержанные... (836)
- После смены гендира Intel стала активно... (538)
- Глава Intel не стесняется продавать... (1061)
- На голову выше: Lada Vesta и Lada Iskra... (735)
- «Демпинг перешёл все мыслимые границы».... (970)
Миф о «разуме» ИИ развеян: исследование учёных показало, что LLM не способны к настоящему логическому рассуждению
Дата: 2025-08-14 16:08
Исследователи из Университета штата Аризона опубликовали работу, бросающую вызов распространённому мнению о способностях больших языковых моделей (LLM) к логическому рассуждению. В последние месяцы индустрия ИИ активно развивает так называемые рассуждающие модели, использующие «цепочку мыслей» (chain of thought) для решения сложных задач в несколько логических шагов. Однако недавние исследования ставят под сомнение наличие у этих моделей даже базового понимания общих логических концепций или точного представления о собственном «процессе мышления». Оказалось, что эти модели часто дают несогласованные и логически некорректные ответы, если вопросы содержат не относящиеся к делу пункты или незначительно отклоняются от стандартных шаблонов, встречающихся в их обучающих данных.
В своей работе учёные резюмируют существующие исследования, указывая на то, что большие языковые модели не являются «мыслителями», а скорее имитируют рассуждения. Для проверки этого предположения была создана DataAlchemy — среда для обучения LLM, в которой получилось измерить эффективность рассуждений по принципу «цепочки мысли» при решении логических задач, выходящих за рамки данных, использованных для обучения модели. Эти задачи не соответствовали специфическим логическим паттернам, присутствующим в обучающих данных.
Среда создаёт небольшие модели, обученные на примерах двух чрезвычайно простых текстовых преобразований с последующим дополнительным обучением, демонстрирующим выполнение этих двух функций в различных порядках и комбинациях. Так получилось контролировать процесс обучения и анализировать, как модель справляется с задачами, выходящими за рамки её базового обучения.
Иллюстрация: Sora Результаты исследования показали, что значительные скачки производительности, наблюдаемые у моделей, использующих «цепочку мысли», являются «в значительной степени миражом», который «становится ненадёжным и подверженным ошибкам даже при умеренных изменениях распределения данных». Авторы утверждают, что вместо демонстрации истинного понимания текста, рассуждения по методу «цепочки мысли» при изменении задач, прибегают к воспроизведению шаблонов, усвоенных во время обучения.
Полученные данные указывают на то, что способность к логическому рассуждению у современных LLM, по крайней мере в рамках использованной методологии, значительно ниже, чем предполагалось ранее. Работа подчёркивает необходимость дальнейших исследований в области разработки более надёжных и обобщающих моделей искусственного интеллекта, способных справляться с нестандартными задачами и демонстрировать истинное понимание логических процессов, а не просто имитировать их.
Подробнее на iXBT
Предыдущие новости
Сбер выпустил большое обновление умных колонок Sber с ИИ GigaChat — быстрые команды, детский профиль и многое другое
Команда Сбера выпустила масштабное обновление фирменных умных колонок Sber, расширяя функциональность самих устройств и виртуального ассистента «Салют». Иллюстрация: Сбер Колонки SberBoom научились выполнять быстрые команды без обращения к ассистенту «Салют» по имени. Управление музыкальным контентом стало проще, достаточно сказать:«пауза», «громкость 50%», «дальше»,...
Самый продаваемый пикап в России получил новый тяговитый мотор: рама, полный привод, 163 л.с. и 8-ступенчатый «автомат» — за 3,76 млн рублей
До недавнего времени пикап JAC T9 — самая покупаемая модель в России в своей категории — оснащался только бензиновым 2,0-литровым мотором, который не очень подходит машине такого класса. Сейчас появилась альтернатива — 2,0-литровый дизельный двигатель мощностью 163 л.с. Он сочетается с 8-ступенчатым «автоматом» и системой полного привода с механической блокировкой заднего...
Совкомбанк собрался обанкротить одного из крупнейших производителей электроники в России — холдинг Fplus
Совкомбанк намерен обратиться в суд для признания IT-холдинга Fplus банкротом. Банк планирует подать иски против трёх юрлиц Fplus, включая головную структуру компании. Источник изображений:
В Rutube теперь можно поддержать деньгами автора прямо под видео
Команда отечественного видеохостинга Rutube расширила возможности пожертвований в пользу авторов. В новой версии приложения под номером 30.8 для Android стали доступны «донаты» не только во время трансляций, но и прямо под видео или на канале автора. Об этом сообщила пресс-служба «Газпром-Медиа Холдинга». Сгенерировано нейросетью Midjourney Директор продукта Rutube Ника...