- Шумоизоляция Xiaomi YU7 оказалась лучше, чем... (941)
- Звукоизоляция Xiaomi YU7 оказалась лучше,... (647)
- Xiaomi готовит международный сюрприз: 17... (688)
- У новенькой GeForce RTX 5080 поломался... (654)
- Скандал вокруг новенькой GeForce RTX 5080:... (785)
- iPhone 16, 16 Pro и 16 Pro Max устроили... (711)
- Ядерные мини-реакторы для питания... (783)
- Энтузиаст использовал тепловые трубки... (725)
- Jolla представила Linux-смартфон с... (650)
- Возглавить Apple готов один из создателей... (717)
- Глава Nvidia рассказал, как изобретение... (662)
- У Wikipedia появился свой аналог Spotify... (644)
- По слухам, Apple может покинуть старший... (712)
- Китай перевёл ракету «Чанчжэн-8А» (Long... (834)
- Kia ввела скидки до 10 000 долларов на свои... (1193)
- Вилла на колесах с запасом хода 1320 км и... (876)
Рост галлюцинаций до 48% ставит под сомнение будущее LLM
Дата: 2025-05-12 12:57
Несмотря на заявления разработчиков о прогрессе, большие языковые модели (LLM) демонстрируют тревожный рост ошибок. Отчёт OpenAI, опубликованный в апреле, показал, что модели o3 и o4-mini выдавали галлюцинации в 33% и 48% случаев соответственно. Для сравнения: модель o1, выпущенная в конце 2024 года, ошибалась лишь в 16% случаев. Аналогичные данные приводит рейтинговая платформа Vectara — модель DeepSeek-R1 с «улучшенным логическим выводом» продемонстрировала двузначный рост галлюцинаций.
OpenAI отрицает связь между обновлениями логического вывода и ростом ошибок. Представители компании заявили, что работают над снижением галлюцинаций в актуальных версиях. Однако эксперты сомневаются в эффективности текущих методов. Например, рейтинг Vectara, оценивающий согласованность при суммировании текстов, выявил, что модели с логическим выводом и без него имеют почти одинаковый уровень галлюцинаций. При этом, как отметил Форрест Шэн Бао из Vectara, многие ошибки DeepSeek-R1 были «безвредными» — логически верными, но отсутствующими в исходных документах.
Иллюстрация: Leonardo Эмили Бендер из Вашингтонского университета раскритиковала сам термин «галлюцинации», назвав его антропоморфизацией машин. «LLM не понимают смысл — они предсказывают следующее слово на основе статистики», — подчеркнула она. Арвинд Нараянан из Принстонского университета добавил, что проблема шире: модели используют устаревшие данные и ненадёжные источники. По его словам, увеличение объёма тренировочных данных не решает вопрос достоверности.
Рекомендации исследователей сводятся к осторожности. Нараянан предлагает применять LLM только там, где проверка ответа занимает меньше времени, чем самостоятельный поиск. Бендер советует полностью отказаться от использования чат-ботов для получения фактов. «Эти системы не созданы для генерации знаний — они имитируют речь», — пояснила она.
Ситуация ставит под вопрос будущее LLM. Если раньше считалось, что галлюцинации исчезнут с развитием технологий, то теперь эксперты признают: ошибки останутся неотъемлемой частью работы моделей. Решение — не надеяться на исправление алгоритмов, а изменить подходы к проверке их выводов.
Подробнее на iXBT
Предыдущие новости
Toyota RAV4 нового поколения впервые показали вживую на официальных фото
Toyota анонсировала презентацию нового поколения кроссовера RAV4, который будет представлен 20 мая. Опубликованные тизеры демонстрируют автомобиль сверху. Фото Toyota Тизеры показывают двухцветную окраску, технические детали пока не раскрыты, но ожидается, что базовая версия получит гибридную силовую установку: 2,5-литровый бензиновый двигатель и два электромотора с общей...
Ничего личного, Илон, просто бизнес. В Китае появится свой Cybertruck — производство GAC Pickup 01 стартует в 2027 году
Китайская компания GAC Group объявила, что серийная версия концептуального пикапа GAC Pickup 01 выйдет на рынок в 2027 году. Автомобиль будет продаваться одновременно в Австралии, Саудовской Аравии, Чили, Мексике и других странах. Учитывая, насколько важен для компании отечественный рынок, новинка может появиться и у нас. К тому же отечественный рынок пикапов на подъеме. ...
Илон Маск прав: ученые назвали год, когда Земля будет уничтожена Солнцем. Миллиардер уверен, что человечество может спастись на Марсе
Илон Маск предупредил, что «в конце концов вся жизнь на Земле будет уничтожена Солнцем», как мы уже сообщали, а теперь ученые рассказали, когда это может произойти. Исследователи из NASA и Университета Тохо в Японии использовали современные суперкомпьютеры и математические модели для прогнозирования долгосрочной эволюции Солнца. Они провели более 400 000 симуляций, чтобы...
Устаревшие Mercedes-Benz Sprinter уступили место суперсовременным «Газелям NN» с пневмоподвеской и телемедициной
Московская станция скорой и неотложной медицинской помощи имени А.С. Пучкова получила 80 новых автомобилей «Газель NN», которые постепенно заменяют устаревшие Mercedes-Benz Sprinter. «Газели NN» оснащены 2,5-литровым дизельным двигателем и пневмоподвеской задних колёс, регулируемой с панели приборов, что повышает комфорт для пациентов и персонала. Фото No Limits Главная...