- Умнее, но прожорливее: GPT-5 потребляет до... (29)
- Всего 1200 долларов за видеокарту с 48 ГБ... (22)
- Анонсирован Kumarn: The Wandering Spirit —... (23)
- За месяц до анонса Apple: в России... (36)
- Сооснователь xAI Игорь Бабушкин покинул... (31)
- Нацмессенджер Max рассказал о первых... (38)
- Никаких переносов на 2026 год? Производство... (39)
- Представлены российские мониторы OSiO... (39)
- Самый продаваемый пикап в России получил... (52)
- Сбер выпустил большое обновление умных... (51)
- Миф о «разуме» ИИ развеян: исследование... (50)
- Совкомбанк собрался обанкротить одного из... (44)
- Очередное обновление Windows 11 отказалось... (52)
- 9 моделей смартфонов Xiaomi и Redmi первыми... (58)
- AST SpaceMobile бросает вызов Starlink: 1,5... (77)
- В Rutube теперь можно поддержать деньгами... (62)
Миф о «разуме» ИИ развеян: исследование учёных показало, что LLM не способны к настоящему логическому рассуждению
Дата: сегодня 16:08
Исследователи из Университета штата Аризона опубликовали работу, бросающую вызов распространённому мнению о способностях больших языковых моделей (LLM) к логическому рассуждению. В последние месяцы индустрия ИИ активно развивает так называемые рассуждающие модели, использующие «цепочку мыслей» (chain of thought) для решения сложных задач в несколько логических шагов. Однако недавние исследования ставят под сомнение наличие у этих моделей даже базового понимания общих логических концепций или точного представления о собственном «процессе мышления». Оказалось, что эти модели часто дают несогласованные и логически некорректные ответы, если вопросы содержат не относящиеся к делу пункты или незначительно отклоняются от стандартных шаблонов, встречающихся в их обучающих данных.
В своей работе учёные резюмируют существующие исследования, указывая на то, что большие языковые модели не являются «мыслителями», а скорее имитируют рассуждения. Для проверки этого предположения была создана DataAlchemy — среда для обучения LLM, в которой получилось измерить эффективность рассуждений по принципу «цепочки мысли» при решении логических задач, выходящих за рамки данных, использованных для обучения модели. Эти задачи не соответствовали специфическим логическим паттернам, присутствующим в обучающих данных.
Среда создаёт небольшие модели, обученные на примерах двух чрезвычайно простых текстовых преобразований с последующим дополнительным обучением, демонстрирующим выполнение этих двух функций в различных порядках и комбинациях. Так получилось контролировать процесс обучения и анализировать, как модель справляется с задачами, выходящими за рамки её базового обучения.

Результаты исследования показали, что значительные скачки производительности, наблюдаемые у моделей, использующих «цепочку мысли», являются «в значительной степени миражом», который «становится ненадёжным и подверженным ошибкам даже при умеренных изменениях распределения данных». Авторы утверждают, что вместо демонстрации истинного понимания текста, рассуждения по методу «цепочки мысли» при изменении задач, прибегают к воспроизведению шаблонов, усвоенных во время обучения.
Полученные данные указывают на то, что способность к логическому рассуждению у современных LLM, по крайней мере в рамках использованной методологии, значительно ниже, чем предполагалось ранее. Работа подчёркивает необходимость дальнейших исследований в области разработки более надёжных и обобщающих моделей искусственного интеллекта, способных справляться с нестандартными задачами и демонстрировать истинное понимание логических процессов, а не просто имитировать их.
Подробнее на iXBT
Предыдущие новости
Сбер выпустил большое обновление умных колонок Sber с ИИ GigaChat — быстрые команды, детский профиль и многое другое
Команда Сбера выпустила масштабное обновление фирменных умных колонок Sber, расширяя функциональность самих устройств и виртуального ассистента «Салют». Иллюстрация: Сбер Колонки SberBoom научились выполнять быстрые команды без обращения к ассистенту «Салют» по имени. Управление музыкальным контентом стало проще, достаточно сказать:«пауза», «громкость 50%», «дальше»,...
Самый продаваемый пикап в России получил новый тяговитый мотор: рама, полный привод, 163 л.с. и 8-ступенчатый «автомат» — за 3,76 млн рублей
До недавнего времени пикап JAC T9 — самая покупаемая модель в России в своей категории — оснащался только бензиновым 2,0-литровым мотором, который не очень подходит машине такого класса. Сейчас появилась альтернатива — 2,0-литровый дизельный двигатель мощностью 163 л.с. Он сочетается с 8-ступенчатым «автоматом» и системой полного привода с механической блокировкой заднего...
Совкомбанк собрался обанкротить одного из крупнейших производителей электроники в России — холдинг Fplus
Совкомбанк намерен обратиться в суд для признания IT-холдинга Fplus банкротом. Банк планирует подать иски против трёх юрлиц Fplus, включая головную структуру компании. Источник изображений:
В Rutube теперь можно поддержать деньгами автора прямо под видео
Команда отечественного видеохостинга Rutube расширила возможности пожертвований в пользу авторов. В новой версии приложения под номером 30.8 для Android стали доступны «донаты» не только во время трансляций, но и прямо под видео или на канале автора. Об этом сообщила пресс-служба «Газпром-Медиа Холдинга». Сгенерировано нейросетью Midjourney Директор продукта Rutube Ника...