- Samsung представила Exynos 2600 — первый в... (1343)
- Японский ноутбук на Snapdragon массой менее... (1534)
- 6200 мАч, 90 Вт, флагманская тройная... (1170)
- Каршеринг BelkaCar запустил тариф «В Москву»... (1531)
- «Найди книги, похожие на ведьмака»: ИИ... (1474)
- Такой же неубиваемый, как Nokia 3310, только... (1414)
- Опять за старое: создание нового демо... (1496)
- Новая Lada Vesta 2026 уже у дилеров: АвтоВАЗ... (1464)
- Сначала люди учат нейросети генерировать... (1173)
- «Ведьмак» обойдётся без ИИ: разработчики... (1316)
- Nvidia представила новую видеокарту с 72 ГБ... (1426)
- Первый в мире мобильный телеобъектив Leica... (1317)
- Не только флагманы: у Honor появится... (1206)
- После скандала LG разрешила удалять... (1193)
- Первая в мире 200-мегапиксельная камера... (1256)
- За регистрацию смартфонов в единой базе IMEI... (1676)
Grok Илона Маска признан самым точным чат-ботом с минимальным количеством галлюцинаций, а ChatGPT и Gemini оказались внизу свежего рейтинга Relum
Дата: 2025-12-25 10:55
Grok Илона Маска признали одним из самых надежных чат-ботов с искусственным интеллектом для использования на рабочем месте. Он показал самый низкий уровень ложных срабатываний — всего 8% — на фоне 10 основных протестированных моделей.
Для сравнения, лидер рынка ChatGPT показал один из самых высоких показателей ложных срабатываний — 35%, уступив лишь Gemini от Google, у которого этот показатель составил 38%.
В ходе исследования, которое провел Relum в декабре, оценивались чат-боты по таким параметрам, как частота возникновения галлюцинаций, рейтинг клиентов, стабильность ответов и частота простоев. Затем чат-ботам присваивался балл риска надежности от 0 до 99, причем более высокие баллы указывали на более серьезные проблемы.
Изображение Midjourney Grok показал 8% случаев возникновения галлюцинаций, рейтинг клиентов 4,5, стабильность 3,5 и время простоя 0,07%, что привело к общему показателю риска всего 6. DeepSeek занял второе место с 14% случаев возникновения галлюцинаций и нулевым временем простоя, получив превосходный показатель риска 4. Высокие показатели галлюцинаций и времени простоя ChatGPT обеспечили ему наивысший показатель риска 99, за ним следуют Claude и Meta AI, получившие показатели надежности 75 и 70 соответственно.
Директор по продуктам компании Relum Разван-Лучиан Хайдук поделился своими мыслями о результатах исследования. «Около 65% американских компаний сейчас используют чат-боты с искусственным интеллектом в своей повседневной работе, и почти 45% сотрудников признают, что делились конфиденциальной информацией компании с помощью этих инструментов. Эти цифры хорошо показывают, насколько важными стали чат-боты в повседневной работе. Зависимость от инструментов искусственного интеллекта, вероятно, будет только расти, поэтому компаниям следует выбирать чат-ботов, исходя из их надежности и соответствия конкретным потребностям бизнеса. Чат-бот, которым пользуются все, не обязательно является лучшим вариантом для вашей отрасли или дает точные ответы на ваши задачи».
Подробнее на iXBT
Предыдущие новости
Стартовали продажи нового флагманского Geely Monjaro в России
Компания Geely начала продажи новой версии флагманского кроссовера Monjaro в комплектации Flagship SE в России. Автомобиль доступен у официальных дилеров по цене от 4 609 990 рублей с учетом специальных программ. Об этом сообщила пресс-служба автопроизводителя. Иллюстрация: Geely Новая версия получила эксклюзивный цвет кузова «Mountain Green» и 20-дюймовые колесными дисками...
Владельцы Tesla в восторге от нового автопилота с режимом «Безумный Макс» (Mad Max)
Новая версия системы Full Self-Driving от Tesla, 14.2.2, уже успела впечатлить первых пользователей. Владельцы отмечают, что автомобиль реагирует мгновенно при перестроении, уверенно держит полосу движения и демонстрирует плавную езду даже на извилистых дорогах и ночью. Обновление добавляет динамическую регулировку метки прибытия, а также улучшает работу режимов парковки и...
Судьбу Intel определила 40-минутная встреча гендира Тана с президентом Трампом
В конце августа этого года корпорация Intel договорилась с властями США о продаже им 9,9 % своих акций. Как поясняет Reuters, этой сделке предшествовала серьёзная подготовка, причём для генерального директора Лип-Бу Тана (Lip-Bu Tan) это стало серьёзным испытанием, ибо ранее он не посещал Белый дом и последний раз жертвовал на избирательную кампанию американских...
Европа буксует на «зелёном» повороте: возобновляемая энергия заняла лишь четверть рынка
Евростат, как крупнейшая в ЕС бюрократическая машина, работает медленно, но верно. На днях эта организация, ответственная за поставку ключевых данных для планирования дел в Европе, подвела итоги выработки и потребления энергии в регионе в 2024 году. Выяснилось, что 25,2 % потреблённой в ЕС энергии пришлось на возобновляемые источники. С одной стороны — это вдохновляет...