- Карточный роглайк Slay of the Spire 2... (17)
- Так что же лучше: MacBook Neo или старичок... (163)
- Видеокарты Radeon следующего поколения... (187)
- Noctua готовит корпус для ПК с фирменными... (211)
- Synopsys показала в деле интерфейс класса... (123)
- Zephyr отказалась от выпуска уникальной... (151)
- Ключевые металлы для производства чипов... (94)
- Энтузиаст полгода тестировал DVD-RW... (220)
- Второй крупный сбой Telegram в России за... (240)
- Тысячи домашних роутеров по всему миру 16... (273)
- AMD Radeon RX 9070 XT резко подешевела в... (290)
- Samsung снова наступила на старые грабли? В... (154)
- Обнаружены компоненты нетеплового... (229)
- Сгорающие спутники превращаются в новую... (251)
- AetherFloat: новая архитектура... (312)
- Samsung запустила продажи магнитного... (501)
AetherFloat: новая архитектура блок-независимых 8- и 16-битных чисел может сделать ИИ-процессоры быстрее и экономичнее
Дата: сегодня 16:42
Развитие искусственного интеллекта всё сильнее упирается в ограничения аппаратуры. Современные нейросетевые ускорители — Neural Processing Units (NPU) — выполняют колоссальное число операций с числами с плавающей запятой. Однако стандарт IEEE 754, лежащий в основе большинства таких вычислений, оказался не слишком удобным для специализированных ИИ-процессоров: он требует сравнительно сложной логики и увеличивает энергопотребление чипов. Для дата-центров даже небольшая экономия энергии на каждой операции становится заметной на уровне всего кластера.
Эта проблема особенно заметна при переходе к низкобитным форматам — например, 8-битному FP8 или OCP MX. Чтобы избежать переполнений при работе нейросетей, такие форматы обычно используют механизм блокового масштабирования (AMAX), который усложняет аппаратную реализацию и увеличивает задержки. По сути, процессору приходится постоянно отслеживать максимальные значения в блоках данных и пересчитывать масштаб чисел.
Автор новой работы, Кэйта Морисаки (Keita Morisaki), предложил альтернативный подход — семейство форматов чисел AetherFloat, специально разработанное для ускорителей ИИ. В основе архитектуры лежит использование четырёхзначной шкалы экспоненты (Base-4) и явной мантиссы. Такая схема позволяет отказаться от скрытого бита и сложных процедур нормализации, которые обычно применяются в классических форматах с плавающей запятой.
По расчётам, это заметно упрощает аппаратную реализацию вычислительных блоков. В частности, площадь ядра умножения-накопления (MAC) уменьшается примерно на 33%, энергопотребление — на 22%, а задержка критического пути сокращается примерно на 12% по сравнению с типичными реализациями FP8. Поскольку именно MAC-блоки составляют основу вычислений нейросетей, такие изменения могут заметно повлиять на эффективность всего ускорителя.
Иллюстрация: Grok Формат AetherFloat-8 (AF8) предназначен прежде всего для инференса нейросетей. Он обладает расширенным динамическим диапазоном — примерно от 1,2×10-4 до 57 344. Благодаря этому формат способен обрабатывать редкие экстремальные значения в активациях больших языковых моделей без дополнительного аппаратного масштабирования. В результате отпадает необходимость в механизме AMAX, который используется в ряде существующих FP8-реализаций.
При этом AF8 требует применения квантования с учётом обучения (QAT, Quantization-Aware Training) — подхода, при котором модель изначально обучается с учётом будущего перехода на низкобитные представления чисел.
Второй формат семейства — AetherFloat-16 (AF16) — рассматривается авторами как возможная альтернатива широко используемому формату bfloat16. По результатам экспериментов AF16 обеспечивает сопоставимую точность вычислений, но требует меньших аппаратных ресурсов.
Оба формата используют оригинальную схему кодирования — Lexicographic One’s Complement. Она позволяет сравнивать числа как обычные целые значения, без дополнительных преобразований, что упрощает и ускоряет аппаратную реализацию операций вроде функции активации ReLU или операции уменьшения размерности MaxPooling. В свою очередь, это означает более простые и быстрые схемы логических сравнений.
Автор протестировал новую архитектуру на задачах обучения и инференса LLM Qwen2.5-7B. Эксперименты показали, что AF8 демонстрирует стабильную сходимость при использовании QAT и оказывается устойчивее к потере градиентов, чем стандартные FP8-форматы. Формат AF16, в свою очередь, практически не уступает bfloat16 по точности вычислений.
Исследователь также опубликовал в открытом доступе код архитектуры, чтобы другие разработчики могли воспроизводить результаты и тестировать формат в собственных системах. При этом Морисаки отмечает, что для окончательных выводов потребуется проверка на реальных чипах и расширение экспериментов на другие типы моделей.
Если предложенный подход подтвердит свою эффективность в аппаратной реализации, то форматы AetherFloat могут заметно упростить архитектуру будущих ИИ-ускорителей. Это позволит снизить энергопотребление и стоимость специализированных процессоров, сохранив точность вычислений даже при использовании низкобитных числовых форматов.
Подробнее на iXBT
Предыдущие новости
Сгорающие спутники превращаются в новую форму загрязнения атмосферы
Резкий рост числа спутников на орбите начинает создавать новую экологическую проблему. Учёные предупреждают, что массовый сход спутников с орбиты и их сгорание в атмосфере приводит к загрязнению верхних слоёв атмосферы металлами и химическими соединениями. Изображение: SpaceX В последние годы число запусков стремительно выросло из-за развития мегасозвездий спутников — крупных...
Обнаружены компоненты нетеплового радиоизлучения в туманности Ориона
Туманность Ориона (M42) — ближайшая к Земле область активного звездообразования с массивными молодыми звёздами, что делает её «эталонной лабораторией» для изучения сложных процессов в межзвёздной среде. В радиодиапазоне здесь доминирует тепловое излучение ионизированного водорода (HII), однако наличие нетеплового компонента может указывать на ускорение частиц и сложные...
Samsung Galaxy A57 и Galaxy A37 показали во всех цветах до премьеры
В сеть утекла большая подборка рендеров будущих смартфонов Samsung Galaxy A37 и Galaxy A57. Изображения опубликовало издание Android Headlines, которое ранее уже раскрыло полные характеристики обеих моделей. Изображение: Androidheadlines Изображение: Androidheadlines Судя по рендерам, Galaxy A37 выйдет в цветах Awesome Charcoal, Awesome Graygreen, Awesome Lavender и Awesome...
Уже нашёлся умелец, который создал MacBook Neo с SSD объёмом 1 ТБ. Для этого он перепаял чип памяти
Новенький MacBook Neo доступен только в версиях с SSD объёмом 256 или 512 ГБ. Однако уже нашёлся умелец, который успешно модифицировал ноутбук, наделив его 1 ТБ памяти. Автор канала DirectorFeng приобрёл новенький розовый Neo с 256 ГБ памяти, разобрал его, отпаял чип памяти NAND и припаял на его место новый объёмом 1 ТБ. Скриншот видео Кроме того, что автор получил вчетверо...