- Видеокарта Radeon RX 9070 XT наконец... (3271)
- Нереалистичные сроки, неумелое руководство и... (3810)
- В работе F******k и I*******m произошёл... (3234)
- SpaceX провела крупнейшее IPO в истории,... (3331)
- Crimson Desert продолжает превращаться в... (2587)
- BMW представила концепт электрического... (2517)
- «Полмиллиона Безымянных героев»: THQ Nordic... (2352)
- Роборука Canadarm2 на МКС стала работать... (3384)
- DJI подала в суд на Insta360, обвинив в... (2428)
- Вирус Hades распугивает ИИ-сканеры запросами... (2543)
- HarmonyOS 6 распространилась на 66 млн... (2239)
- Samsung засветила Galaxy A27 5G — бюджетник... (2498)
- Основатель Nothing рассказал, когда лучше... (2345)
- Huawei анонсировала HarmonyOS 7 с повышенной... (2410)
- AMD, OQC и JPMorgan Chase создадут квантовую... (2709)
- LG выпустила 34-дюймовый игровой... (2743)
AetherFloat: новая архитектура блок-независимых 8- и 16-битных чисел может сделать ИИ-процессоры быстрее и экономичнее
Дата: 2026-03-14 16:42
Развитие искусственного интеллекта всё сильнее упирается в ограничения аппаратуры. Современные нейросетевые ускорители — Neural Processing Units (NPU) — выполняют колоссальное число операций с числами с плавающей запятой. Однако стандарт IEEE 754, лежащий в основе большинства таких вычислений, оказался не слишком удобным для специализированных ИИ-процессоров: он требует сравнительно сложной логики и увеличивает энергопотребление чипов. Для дата-центров даже небольшая экономия энергии на каждой операции становится заметной на уровне всего кластера.
Эта проблема особенно заметна при переходе к низкобитным форматам — например, 8-битному FP8 или OCP MX. Чтобы избежать переполнений при работе нейросетей, такие форматы обычно используют механизм блокового масштабирования (AMAX), который усложняет аппаратную реализацию и увеличивает задержки. По сути, процессору приходится постоянно отслеживать максимальные значения в блоках данных и пересчитывать масштаб чисел.
Автор новой работы, Кэйта Морисаки (Keita Morisaki), предложил альтернативный подход — семейство форматов чисел AetherFloat, специально разработанное для ускорителей ИИ. В основе архитектуры лежит использование четырёхзначной шкалы экспоненты (Base-4) и явной мантиссы. Такая схема позволяет отказаться от скрытого бита и сложных процедур нормализации, которые обычно применяются в классических форматах с плавающей запятой.
По расчётам, это заметно упрощает аппаратную реализацию вычислительных блоков. В частности, площадь ядра умножения-накопления (MAC) уменьшается примерно на 33%, энергопотребление — на 22%, а задержка критического пути сокращается примерно на 12% по сравнению с типичными реализациями FP8. Поскольку именно MAC-блоки составляют основу вычислений нейросетей, такие изменения могут заметно повлиять на эффективность всего ускорителя.
Иллюстрация: Grok Формат AetherFloat-8 (AF8) предназначен прежде всего для инференса нейросетей. Он обладает расширенным динамическим диапазоном — примерно от 1,2×10-4 до 57 344. Благодаря этому формат способен обрабатывать редкие экстремальные значения в активациях больших языковых моделей без дополнительного аппаратного масштабирования. В результате отпадает необходимость в механизме AMAX, который используется в ряде существующих FP8-реализаций.
При этом AF8 требует применения квантования с учётом обучения (QAT, Quantization-Aware Training) — подхода, при котором модель изначально обучается с учётом будущего перехода на низкобитные представления чисел.
Второй формат семейства — AetherFloat-16 (AF16) — рассматривается авторами как возможная альтернатива широко используемому формату bfloat16. По результатам экспериментов AF16 обеспечивает сопоставимую точность вычислений, но требует меньших аппаратных ресурсов.
Оба формата используют оригинальную схему кодирования — Lexicographic One’s Complement. Она позволяет сравнивать числа как обычные целые значения, без дополнительных преобразований, что упрощает и ускоряет аппаратную реализацию операций вроде функции активации ReLU или операции уменьшения размерности MaxPooling. В свою очередь, это означает более простые и быстрые схемы логических сравнений.
Автор протестировал новую архитектуру на задачах обучения и инференса LLM Qwen2.5-7B. Эксперименты показали, что AF8 демонстрирует стабильную сходимость при использовании QAT и оказывается устойчивее к потере градиентов, чем стандартные FP8-форматы. Формат AF16, в свою очередь, практически не уступает bfloat16 по точности вычислений.
Исследователь также опубликовал в открытом доступе код архитектуры, чтобы другие разработчики могли воспроизводить результаты и тестировать формат в собственных системах. При этом Морисаки отмечает, что для окончательных выводов потребуется проверка на реальных чипах и расширение экспериментов на другие типы моделей.
Если предложенный подход подтвердит свою эффективность в аппаратной реализации, то форматы AetherFloat могут заметно упростить архитектуру будущих ИИ-ускорителей. Это позволит снизить энергопотребление и стоимость специализированных процессоров, сохранив точность вычислений даже при использовании низкобитных числовых форматов.
Подробнее на iXBT
Предыдущие новости
Сгорающие спутники превращаются в новую форму загрязнения атмосферы
Резкий рост числа спутников на орбите начинает создавать новую экологическую проблему. Учёные предупреждают, что массовый сход спутников с орбиты и их сгорание в атмосфере приводит к загрязнению верхних слоёв атмосферы металлами и химическими соединениями. Изображение: SpaceX В последние годы число запусков стремительно выросло из-за развития мегасозвездий спутников — крупных...
Обнаружены компоненты нетеплового радиоизлучения в туманности Ориона
Туманность Ориона (M42) — ближайшая к Земле область активного звездообразования с массивными молодыми звёздами, что делает её «эталонной лабораторией» для изучения сложных процессов в межзвёздной среде. В радиодиапазоне здесь доминирует тепловое излучение ионизированного водорода (HII), однако наличие нетеплового компонента может указывать на ускорение частиц и сложные...
Samsung Galaxy A57 и Galaxy A37 показали во всех цветах до премьеры
В сеть утекла большая подборка рендеров будущих смартфонов Samsung Galaxy A37 и Galaxy A57. Изображения опубликовало издание Android Headlines, которое ранее уже раскрыло полные характеристики обеих моделей. Изображение: Androidheadlines Изображение: Androidheadlines Судя по рендерам, Galaxy A37 выйдет в цветах Awesome Charcoal, Awesome Graygreen, Awesome Lavender и Awesome...
Уже нашёлся умелец, который создал MacBook Neo с SSD объёмом 1 ТБ. Для этого он перепаял чип памяти
Новенький MacBook Neo доступен только в версиях с SSD объёмом 256 или 512 ГБ. Однако уже нашёлся умелец, который успешно модифицировал ноутбук, наделив его 1 ТБ памяти. Автор канала DirectorFeng приобрёл новенький розовый Neo с 256 ГБ памяти, разобрал его, отпаял чип памяти NAND и припаял на его место новый объёмом 1 ТБ. Скриншот видео Кроме того, что автор получил вчетверо...