- Крах VR-игр на консолях становится... (594)
- Психологический хоррор s.p.l.i.t от автора... (853)
- Маск на пути к суперприложению: X запустит... (673)
- Nothing показала, чем заменит фирменную... (854)
- ASRock... (477)
- Вторичный рынок завалило заблокированными за... (343)
- Playdead готовится подать в суд на... (333)
- Lada Iskra будут выпускать на бывшем... (773)
- Производитель гигантских ИИ-чипов Cerebras... (684)
- Производитель гигантских ИИ-чипов Cerebras... (424)
- Большая машина для тех, кому ездить много и... (580)
- EA обновила тестовую версию следующей... (753)
- Новый ультратонкий флагман Samsung показали... (674)
- Крупнейшая утечка паролей в истории:... (653)
- ИИ потребляет чудовищные объёмы энергии —... (639)
- Экзафлопсный суперкомпьютер Fugaku Next... (565)
Кластер обучения нейросети Llama 3 405B фиксировал сбои ускорителей Nvidia H100 примерно раз в шесть часов
Дата: 2024-07-27 19:38
Современные большие нейросети обучаются на системах с огромным количеством компонентов. А чем больше компонентов, тем выше вероятность отказа. Свежий отчёт Meta* содержит информацию о том, что компания сталкивалась со сбоями ускорителей Nvidia H100 примерно раз в три часа.

Во время обучения модели Llama 3 405B на кластере, содержащем 16 384 ускорителя Nvidia H100 80 ГБ, в течение 54 дней было зафиксировано 419 сбоев, то есть в среднем один сбой каждые три часа. В 58,7% случаев виноваты были либо графические процессоры, либо их память HBM3. В целом сбои в таких сложных системах — это норма, и вопрос скорее в способности специалистов справляться с этими сбоями. В случае Meta* команда сохранила более 90% эффективного времени обучения.

Проблемные GPU были идентифицированы с помощью специализированных инструментов. Эти инструменты приоритизировали проблемные коммуникации, обеспечивая эффективное обнаружение и своевременное разрешение отстающих GPU, что гарантировало минимизацию замедлений, поддерживая общую эффективность обучения.
* Meta признана в России экстремистской организацией, её деятельность запрещена.
Подробнее на iXBT
Предыдущие новости
«Мы обнаружили, что у вас CPU Intel. У этого процессора имеются проблемы с играми на Unreal Engine 5». Игра Path of Titans предупреждает игроков о причинах сбоя
Разработчики стали предупреждать владельцев процессоров Intel Core 13-го и 14-го поколения, что сбой в игре произошёл именно из-за CPU. создано DALL-E Так стали делать разработчики Alderon Games, выпустившие игру Path of Titans на Unreal Engine 5. В случае сбоя игра выводит оповещение о том, что он произошёл из-за процессора и предлагает ссылку на подробную информацию. Игра...
Загадка антиматерии: файерболы могут объяснить избыток антигелия в эксперименте на МКС
В 2016 году физики были поражены, обнаружив антиматерию ядер гелия в ходе эксперимента на борту Международной космической станции. Однако наиболее удивительным оказалось количество этих частиц антиматерии, которое значительно превысило прогнозы Стандартной модели физики элементарных частиц. В новом исследовании международная группа физиков предложила гипотетические объекты,...
Maingear ML-17 — первый в мире ноутбук с двумя портами Thunderbolt 5. А ещё тут самые мощные компоненты, которые существуют на рынке
Компания Maingear выпустила топовый игровой ноутбук ML-17. Он предлагает фактически максимум, что есть сейчас на рынке, но и стоит немало. Независимо от модификации, ноутбук оснащён 24-ядерным Core i9-14900HX и мобильной GeForce RTX 4090 Laptop. Конфигуратор на сайте позволяет настраивать другие параметры, включая объём ОЗУ, количество и объём накопителей. Также ноутбук...
Космическая Олимпиада: астронавты NASA провели мини-соревнования на МКС в честь Игр 2024
В преддверии летних Олимпийских игр 2024 года, которые пройдут в Париже и других городах Франции, атмосфера праздника и состязаний распространилась даже на космическое пространство. Шесть астронавтов NASA, находящихся на борту Международной космической станции, решили отметить это событие, проведя свою собственную мини-Олимпиаду. NASA опубликовало двухминутный видеоролик, в...