- Такой смартфон в 2026 году ожидается всего... (39)
- Новая версия Huawei Mate 80 подстегнула... (31)
- Honor X80i с большой батареей на 7000 мАч... (34)
- Эту технологию уже добавляют в смартфоны:... (30)
- Яндекс запустил нейросеть в помощь незрячим... (139)
- Warhorse уволила переводчика Kingdom Come:... (118)
- Пограничная ситуация: плазма от выброса на... (125)
- Поддержка AirDrop появилась у Samsung Galaxy... (142)
- Активная эксплуатация может снизить ёмкость... (107)
- Самая эффективная система охлаждения в... (92)
- В работе мессенджера MAX произошёл сбой —... (212)
- Цены на память DDR5 начали падать. Модули 32... (90)
- Huawei готовит флагманскую серию Mate 90 с... (98)
- Экран 165 Гц, Dimensity 9500 и большой... (197)
- Историческое возвращение людей к Луне... (203)
- Новая студия создателя The Stanley Parable... (260)
Интеллект на ватт: новое исследование вводит метрику для оценки производительности LLM на локальных ускорителях
Дата: 2026-03-29 15:10
С ростом популярности больших языковых моделей (LLM) нагрузка на облачные вычислительные системы значительно увеличилась, что требует поиска новых подходов к обработке запросов. Исследование, проведённое группой учёных, предлагает метрику «интеллект на ватт» (IPW), которая оценивает эффективность локальных систем, объединяя точность выполнения задач и энергопотребление. Это позволяет сравнивать производительность различных моделей и ускорителей.
В рамках исследования было протестировано более 20 локальных языковых моделей на 8 аппаратных ускорителях, включая устройства от Nvidia, AMD и Apple. Для анализа использовался массив из миллиона реальных запросов, охватывающих задачи общения, рассуждений и проверки знаний. Результаты показали, что локальные модели способны успешно обрабатывать 88,7% запросов, а их эффективность (IPW) выросла в 5,3 раза с 2023 по 2025 год благодаря улучшениям в алгоритмах и аппаратных решениях.
Одним из ключевых выводов стало то, что локальные ускорители, такие как Apple M4 Max, уже могут обеспечивать интерактивную обработку запросов, хотя их эффективность пока что уступает облачным решениям. Например, ускорители Nvidia B200 и SambaNova SN40L демонстрируют на 40-78% более высокую эффективность по сравнению с локальными устройствами. Тем не менее, локальные системы позволяют перераспределить до 71,3% запросов, снижая энергопотребление на 60-80% при использовании гибридного подхода.
Иллюстрация: Nano Banana Исследование также показало, что локальные модели особенно эффективны для творческих и гуманитарных задач, где их точность превышает 90%. Однако в технических областях, таких как архитектура и инженерия, точность падает до 68%, что подчёркивает необходимость дальнейших улучшений. Тем не менее, даже в этих условиях локальные модели способны обрабатывать значительную часть запросов, снижая нагрузку на облачные системы.
Важным аспектом работы стало внедрение маршрутизации запросов между локальными и облачными системами. Оптимальное распределение запросов позволяет достичь значительной экономии ресурсов без потери качества ответов. Например, при точности маршрутизации 80% энергопотребление снижается на 64%, а затраты — на 59%.
Кроме того, исследование подчёркивает важность дальнейшего развития локальных ускорителей. Хотя они уже достигли значительного прогресса, облачные решения сохраняют преимущество благодаря специализированным аппаратным оптимизациям. Это создаёт потенциал для будущих улучшений локальных систем, которые смогут ещё больше сократить разрыв в эффективности.
Результаты подчёркивают потенциал локальных языковых моделей как дополнения к облачным системам. С дальнейшим развитием архитектур моделей и ускорителей эффективность локальных систем будет только расти, что позволит перераспределить ещё большую часть нагрузки. Авторы работы также выпустили открытый инструмент для оценки IPW, чтобы стимулировать дальнейшие разработки в этой области.
Подробнее на iXBT
Предыдущие новости
Прототипы международного проекта GRAND помогли продвинуться в разгадке происхождения самых энергетически мощных частиц космоса
Международная коллаборация GRAND (Giant Radio Array for Neutrino Detection) сделала важный шаг в изучении ультравысокоэнергичных (УВЭ) частиц космического происхождения. Эти частицы, включая космические лучи, нейтрино и гамма-лучи, несут информацию о самых экстремальных процессах во Вселенной, но их происхождение остаётся загадкой. GRAND ставит своей целью обнаружение этих...
Наклон магнитного поля формирует сложные истечения газа в молодых звёздах
Международная группа астрофизиков провела исследование, чтобы понять, как наклон магнитного поля влияет на отток газа из молодых звёзд. Истечения играют ключевую роль в формировании звёзд, регулируя их массу и угловой момент, а также влияя на окружающую среду. Наблюдения телескопа ALMA показывают, что в некоторых протозвёздных системах возникают вторичные потоки газа,...
У Chery появился просторный гибридный кроссовер с автопилотом, 510 л.с. и запасом хода 2000 км за 170 тыс. юаней (2,0 млн рублей). Это Chery Fulwin T9L
Chery запустила в Китае предпродажи нового гибридного кроссовера Fulwin T9L. Новинка предложена в четырёх комплектациях — 135 Air, 135 Pro, 230 Pro и 230 Max. Цены — от 140 до 170 тыс. юаней (1,65-2,0 млн рублей). Все они — моноприводные. Необходимость добавления в гамму полноприводного варианта будет обсуждаться с потенциальными покупателями и энтузиастами. Изображение:...
Такая удача бывает раз в жизни: пользователь купил комплект памяти DDR5 64 ГБ за 7 долларов, в реальности он стоит около 1000 долларов
Пользователь форума Reddit под ником L0OK0UTT рассказал о редкой удаче: в локальном магазине он купил комплект памяти Crucial DDR5 SO-DIMM объемом 64 ГБ всего за 7 долларов. Речь идёт о наборе 2×32 ГБ DDR5-5600 для ноутбуков, его цена в обычной рознице доходит до 1100 долларов. Фото: L0OK0UTT По словам автора истории, комплект был отмечен как возврат с Amazon, но на упаковке...