- Россияне скупают Lada Largus: модель... (719)
- Представлен Mercedes-Benz GLE... (731)
- Спустя 20 лет в Half-Life 2 играет больше... (843)
- Новый Geely Coolray L с большим экраном и... (804)
- «БелДжи» готовится начать производство... (615)
- Первый на рынке смартфон с рекордным по ряду... (742)
- Акции Samsung выросли на 5 % на фоне... (740)
- Сотни Kia Sportage в России ждут своих... (636)
- Пешие прогулки, поиск работы, обустройство... (609)
- Открыта редкая рентгеновская двойная звезда:... (661)
- Продано более 10 млн Redmi с экранами 2K.... (643)
- Россияне ежедневно 2 млн раз пытаются зайти... (575)
- «За такие деньги автомобиль с подобным... (608)
- «МегаФон» отменил роуминг в Крыму по... (599)
- Утечка: скриншоты релизной версии... (679)
- Дилеры отдают «Москвич 6» дешевле... (636)
Кластер обучения нейросети Llama 3 405B фиксировал сбои ускорителей Nvidia H100 примерно раз в шесть часов
Дата: 2024-07-27 19:38
Современные большие нейросети обучаются на системах с огромным количеством компонентов. А чем больше компонентов, тем выше вероятность отказа. Свежий отчёт Meta* содержит информацию о том, что компания сталкивалась со сбоями ускорителей Nvidia H100 примерно раз в три часа.
фото: NvidiaВо время обучения модели Llama 3 405B на кластере, содержащем 16 384 ускорителя Nvidia H100 80 ГБ, в течение 54 дней было зафиксировано 419 сбоев, то есть в среднем один сбой каждые три часа. В 58,7% случаев виноваты были либо графические процессоры, либо их память HBM3. В целом сбои в таких сложных системах — это норма, и вопрос скорее в способности специалистов справляться с этими сбоями. В случае Meta* команда сохранила более 90% эффективного времени обучения.
Проблемные GPU были идентифицированы с помощью специализированных инструментов. Эти инструменты приоритизировали проблемные коммуникации, обеспечивая эффективное обнаружение и своевременное разрешение отстающих GPU, что гарантировало минимизацию замедлений, поддерживая общую эффективность обучения.
* Meta признана в России экстремистской организацией, её деятельность запрещена.
Подробнее на iXBT
Предыдущие новости
«Мы обнаружили, что у вас CPU Intel. У этого процессора имеются проблемы с играми на Unreal Engine 5». Игра Path of Titans предупреждает игроков о причинах сбоя
Разработчики стали предупреждать владельцев процессоров Intel Core 13-го и 14-го поколения, что сбой в игре произошёл именно из-за CPU. создано DALL-E Так стали делать разработчики Alderon Games, выпустившие игру Path of Titans на Unreal Engine 5. В случае сбоя игра выводит оповещение о том, что он произошёл из-за процессора и предлагает ссылку на подробную информацию. Игра...
Загадка антиматерии: файерболы могут объяснить избыток антигелия в эксперименте на МКС
В 2016 году физики были поражены, обнаружив антиматерию ядер гелия в ходе эксперимента на борту Международной космической станции. Однако наиболее удивительным оказалось количество этих частиц антиматерии, которое значительно превысило прогнозы Стандартной модели физики элементарных частиц. В новом исследовании международная группа физиков предложила гипотетические объекты,...
Maingear ML-17 — первый в мире ноутбук с двумя портами Thunderbolt 5. А ещё тут самые мощные компоненты, которые существуют на рынке
Компания Maingear выпустила топовый игровой ноутбук ML-17. Он предлагает фактически максимум, что есть сейчас на рынке, но и стоит немало. Независимо от модификации, ноутбук оснащён 24-ядерным Core i9-14900HX и мобильной GeForce RTX 4090 Laptop. Конфигуратор на сайте позволяет настраивать другие параметры, включая объём ОЗУ, количество и объём накопителей. Также ноутбук...
Космическая Олимпиада: астронавты NASA провели мини-соревнования на МКС в честь Игр 2024
В преддверии летних Олимпийских игр 2024 года, которые пройдут в Париже и других городах Франции, атмосфера праздника и состязаний распространилась даже на космическое пространство. Шесть астронавтов NASA, находящихся на борту Международной космической станции, решили отметить это событие, проведя свою собственную мини-Олимпиаду. NASA опубликовало двухминутный видеоролик, в...