- Sony и Honda анонсировали для электромобиля... (3765)
- Беспилотные такси испугались темноты:... (2141)
- Отключение электроснабжения в Сан-Франциско... (2132)
- LG намекнула, какие новые Tandem... (2276)
- Белорусские планшеты H-Tab с аккумуляторами... (2154)
- Lenovo покажет на CES 2026 ноутбук ThinkPad... (3084)
- Manhart прокачала базовый BMW X6: карбон,... (3201)
- Похоже, Samsung Galaxy S26 выйдут позже, чем... (2224)
- Китайский премиум-кроссовер с полным... (3411)
- Китайский премиум-кроссовер с полным... (2097)
- Ушёл из Intel в AMD, а теперь из AMD в... (2032)
- Xiaomi 17 Ultra засветился на качественных... (2398)
- 200-мегапиксельная камера Leica на дюймовом... (3409)
- Очень быстрые SSD, но без какого-либо... (3049)
- Обновлённый Hyundai Staria вышел на рынок:... (2168)
- Недорогие двухкамерные ПК-корпуса с кучей... (2720)
Кластер обучения нейросети Llama 3 405B фиксировал сбои ускорителей Nvidia H100 примерно раз в шесть часов
Дата: 2024-07-27 19:38
Современные большие нейросети обучаются на системах с огромным количеством компонентов. А чем больше компонентов, тем выше вероятность отказа. Свежий отчёт Meta* содержит информацию о том, что компания сталкивалась со сбоями ускорителей Nvidia H100 примерно раз в три часа.
фото: Nvidia Во время обучения модели Llama 3 405B на кластере, содержащем 16 384 ускорителя Nvidia H100 80 ГБ, в течение 54 дней было зафиксировано 419 сбоев, то есть в среднем один сбой каждые три часа. В 58,7% случаев виноваты были либо графические процессоры, либо их память HBM3. В целом сбои в таких сложных системах — это норма, и вопрос скорее в способности специалистов справляться с этими сбоями. В случае Meta* команда сохранила более 90% эффективного времени обучения.
Проблемные GPU были идентифицированы с помощью специализированных инструментов. Эти инструменты приоритизировали проблемные коммуникации, обеспечивая эффективное обнаружение и своевременное разрешение отстающих GPU, что гарантировало минимизацию замедлений, поддерживая общую эффективность обучения.
* Meta признана в России экстремистской организацией, её деятельность запрещена.
Подробнее на iXBT
Предыдущие новости
«Мы обнаружили, что у вас CPU Intel. У этого процессора имеются проблемы с играми на Unreal Engine 5». Игра Path of Titans предупреждает игроков о причинах сбоя
Разработчики стали предупреждать владельцев процессоров Intel Core 13-го и 14-го поколения, что сбой в игре произошёл именно из-за CPU. создано DALL-E Так стали делать разработчики Alderon Games, выпустившие игру Path of Titans на Unreal Engine 5. В случае сбоя игра выводит оповещение о том, что он произошёл из-за процессора и предлагает ссылку на подробную информацию. Игра...
Загадка антиматерии: файерболы могут объяснить избыток антигелия в эксперименте на МКС
В 2016 году физики были поражены, обнаружив антиматерию ядер гелия в ходе эксперимента на борту Международной космической станции. Однако наиболее удивительным оказалось количество этих частиц антиматерии, которое значительно превысило прогнозы Стандартной модели физики элементарных частиц. В новом исследовании международная группа физиков предложила гипотетические объекты,...
Maingear ML-17 — первый в мире ноутбук с двумя портами Thunderbolt 5. А ещё тут самые мощные компоненты, которые существуют на рынке
Компания Maingear выпустила топовый игровой ноутбук ML-17. Он предлагает фактически максимум, что есть сейчас на рынке, но и стоит немало. Независимо от модификации, ноутбук оснащён 24-ядерным Core i9-14900HX и мобильной GeForce RTX 4090 Laptop. Конфигуратор на сайте позволяет настраивать другие параметры, включая объём ОЗУ, количество и объём накопителей. Также ноутбук...
Космическая Олимпиада: астронавты NASA провели мини-соревнования на МКС в честь Игр 2024
В преддверии летних Олимпийских игр 2024 года, которые пройдут в Париже и других городах Франции, атмосфера праздника и состязаний распространилась даже на космическое пространство. Шесть астронавтов NASA, находящихся на борту Международной космической станции, решили отметить это событие, проведя свою собственную мини-Олимпиаду. NASA опубликовало двухминутный видеоролик, в...