- Blue Origin научилась извлекать пригодный... (4813)
- «Готовы вступить в битву!»: Lenovo задумала... (4133)
- Китай разгоняет производство памяти: YMTC... (4199)
- Обновлённый электромобиль Mercedes-Benz EQS... (4428)
- Nvidia опровергла слухи о намерениях купить... (4846)
- Космический дата-центр — уже реальность:... (4259)
- Всё под рукой: в Италии построили подземный... (5964)
- M**a может свергнуть Google с вершины рынка... (4731)
- Supermicro выпустила компактные серверы на... (5732)
- Инвесторы усомнились, что OpenAI... (4634)
- Microsoft не удалит Copilot из Windows 11, а... (4780)
- Физик из Албании разработал флеш-память в... (5204)
- ИИ-помощник «Алиса Про» заработал в почте... (5582)
- «Игромир», но не тот: игровой облачный... (5080)
- У «МоегоОфиса» втрое выросли убытки —... (5832)
- Поджигателя дома Сэма Альтмана обвинили в... (5145)
Почему ИИ-агенты ошибаются без причины: одинаковый запрос — разные решения
Дата: 2026-03-04 12:47
Современные агенты на базе больших языковых моделей (LLM), способные выполнять сложные задачи с помощью инструментов и последовательного рассуждения, всё чаще внедряются в реальные приложения. Однако остаётся малоизученным вопрос: насколько их поведение стабильно при одинаковых входных данных? Это важно для отладки, оценки и надёжности таких систем.
В попытке ответить на этот вопрос проведено систематическое исследование поведенческой согласованности агентов на трёх моделях (Llama 3.1 70B, GPT-4o, Claude Sonnet 4.5) с использованием датасета HotpotQA. Этот набор данных, содержащий вопросы с несколькими вариантами ответа, был собран группой исследователей в области обработки естественного языка из Университета Карнеги-Меллона, Стэнфордского университета и Монреальского университета.
В 3 000 экспериментах (100 задач × 10 запусков × 3 модели) выяснилось: агенты часто выбирают разные последовательности действий даже при идентичных входах. В среднем фиксируется 2,0–4,2 уникальных траектории на 10 запусков, а разброс по количеству шагов достигает 55%.
Иллюстрация: Grok Ключевой результат — высокая согласованность поведения (≤2 уникальных траектории) приводит к точности 80–92%, тогда как при высокой вариативности (≥6 траекторий) точность падает до 25–60%. Причём 69% расхождений возникают уже на втором шаге — при первом запросе. Длина траектории также коррелирует с точностью: короткие (3 шага) дают 90% правильных ответов, длинные (8+ шагов) — лишь 43%.
Для повышения согласованности предлагается снижать температуру генерации (0.7 → 0.0), что уменьшает число уникальных траекторий и повышает точность на 5,4 процентных пункта. Авторы рекомендуют отслеживать согласованность поведения в реальном времени: если агент начинает путаться с самого начала, то результат с большой вероятностью будет ошибочным. Это открывает путь к автоматическому контролю качества и выбору более надёжных моделей.
Работа подчёркивает: даже при минимальном наборе инструментов агенты демонстрируют значительную вариативность, а с ростом сложности задач проблема только усугубляется. Для практических применений важно не только повышать точность, но и обеспечивать стабильность поведения — это позволит строить более надёжные и предсказуемые системы.
Подробнее на iXBT
Предыдущие новости
В России продают уникальный пикап ГАЗ «Атаман» — в два раза дороже нового Hyundai Santa Fe
На классифайде Auto.ru появилось предложение для коллекционеров отечественного автопрома — пикап ГАЗ-2308 «Атаман» 2000 года выпуска. За автомобиль, сохранившийся в заводском состоянии, владелец намерен выручить 10 млн рублей. Для сравнения, новый Huyndai Santa Fe 2026 под заказ в России (на том же классифайде) стоит примерно 5,5 млн рублей. Скриншот сайта Auto.ru...
Цены на память теперь меняются каждый час — мелких производителей фактически отрезали от закупок
Рынок спотовых сделок в сегменте микросхем памяти, как отмечает Tom’s Hardware со ссылкой на DigiTimes, перешёл к пересмотру цен буквально каждый час, и мелким производителям электроники просто не остаётся на нём места. Ограниченный объём памяти распределяется неравномерно между примерно 100 крупными покупателями и более чем 190 000 небольшими компаниями, которые в таких...
Российская «Рикор» выпустила смартфоны Rikor Neuro S3 и Neuro S5 на Adnroid
Российская компания «Рикор» объявила о выпуске двух потребительских смартфонов — устройства получили названия Rikor Neuro S3 и Neuro S5. По словам производителя, новинки предлагают высокую производительность, продолжительное время автономной работы, качественные камеры и привлекательный внешний вид устройств. Работают новинки на Android и поставляются с предустановленными...
Создатели Tony Hawk's Pro Skater 3 + 4 опровергли слухи о работе над ремастером Fallout: New Vegas, но фанатов не убедили
Американская Iron Galaxy Studios (Tony Hawk's Pro Skater 3 + 4) прокомментировала недавнюю публикацию в деловой соцсети LinkedIn, которая вызвала бурную реакцию среди фанатов культовых постапокалиптических ролевых игр Fallout 3 и Fallout: New Vegas. Источник изображения: Bethesda...