- F******k и I*******m скоро заполонят... (1214)
- В США нашёлся «островок» рекомендованных цен... (1424)
- Тысячи россиян пожаловались на проблемы в... (1295)
- Китайская HKC представила первый в мире... (1360)
- Представлен российский OCP-сервер Delta... (1131)
- «Это сделано в целях безопасности граждан».... (1199)
- Килограмм за 300 000 рублей. «Союз-5» сможет... (1628)
- Hyundai Tucson и Kia Sportage вошли в топ-3... (1565)
- Власти США хотели снова усилить санкции на... (1348)
- Дональд Трамп признал необходимость снова... (1438)
- «Война и мир» в двух словах: в «Яндекс... (1263)
- В России — 2,5 млн рублей, а в Китае — всего... (1094)
- «С 2022 года у нас отношения полностью... (1476)
- OLED 144 Гц, три камеры по 50 Мп, IP68/69,... (1446)
- Представлен крошечный 35-дюймовый... (1219)
- Корейский внедорожник KGM (SsangYong) Actyon... (1725)
Кластер обучения нейросети Llama 3 405B фиксировал сбои ускорителей Nvidia H100 примерно раз в шесть часов
Дата: 2024-07-27 19:38
Современные большие нейросети обучаются на системах с огромным количеством компонентов. А чем больше компонентов, тем выше вероятность отказа. Свежий отчёт Meta* содержит информацию о том, что компания сталкивалась со сбоями ускорителей Nvidia H100 примерно раз в три часа.

Во время обучения модели Llama 3 405B на кластере, содержащем 16 384 ускорителя Nvidia H100 80 ГБ, в течение 54 дней было зафиксировано 419 сбоев, то есть в среднем один сбой каждые три часа. В 58,7% случаев виноваты были либо графические процессоры, либо их память HBM3. В целом сбои в таких сложных системах — это норма, и вопрос скорее в способности специалистов справляться с этими сбоями. В случае Meta* команда сохранила более 90% эффективного времени обучения.

Проблемные GPU были идентифицированы с помощью специализированных инструментов. Эти инструменты приоритизировали проблемные коммуникации, обеспечивая эффективное обнаружение и своевременное разрешение отстающих GPU, что гарантировало минимизацию замедлений, поддерживая общую эффективность обучения.
* Meta признана в России экстремистской организацией, её деятельность запрещена.
Подробнее на iXBT
Предыдущие новости
«Мы обнаружили, что у вас CPU Intel. У этого процессора имеются проблемы с играми на Unreal Engine 5». Игра Path of Titans предупреждает игроков о причинах сбоя
Разработчики стали предупреждать владельцев процессоров Intel Core 13-го и 14-го поколения, что сбой в игре произошёл именно из-за CPU. создано DALL-E Так стали делать разработчики Alderon Games, выпустившие игру Path of Titans на Unreal Engine 5. В случае сбоя игра выводит оповещение о том, что он произошёл из-за процессора и предлагает ссылку на подробную информацию. Игра...
Загадка антиматерии: файерболы могут объяснить избыток антигелия в эксперименте на МКС
В 2016 году физики были поражены, обнаружив антиматерию ядер гелия в ходе эксперимента на борту Международной космической станции. Однако наиболее удивительным оказалось количество этих частиц антиматерии, которое значительно превысило прогнозы Стандартной модели физики элементарных частиц. В новом исследовании международная группа физиков предложила гипотетические объекты,...
Maingear ML-17 — первый в мире ноутбук с двумя портами Thunderbolt 5. А ещё тут самые мощные компоненты, которые существуют на рынке
Компания Maingear выпустила топовый игровой ноутбук ML-17. Он предлагает фактически максимум, что есть сейчас на рынке, но и стоит немало. Независимо от модификации, ноутбук оснащён 24-ядерным Core i9-14900HX и мобильной GeForce RTX 4090 Laptop. Конфигуратор на сайте позволяет настраивать другие параметры, включая объём ОЗУ, количество и объём накопителей. Также ноутбук...
Космическая Олимпиада: астронавты NASA провели мини-соревнования на МКС в честь Игр 2024
В преддверии летних Олимпийских игр 2024 года, которые пройдут в Париже и других городах Франции, атмосфера праздника и состязаний распространилась даже на космическое пространство. Шесть астронавтов NASA, находящихся на борту Международной космической станции, решили отметить это событие, проведя свою собственную мини-Олимпиаду. NASA опубликовало двухминутный видеоролик, в...