- Anker представила беспроводные наушники... (806)
- Легендарный Mercedes-AMG C111 возвращается в... (831)
- Borderlands 4 всё-таки не будет стоить $80,... (771)
- «Зелёное» топливо против природы: топливо из... (952)
- Распознавание лиц Windows Hello перестало... (961)
- Подводный интернет-кабель AAE-2 свяжет Азию,... (703)
- Дети Трампа представили золотой смартфон T1... (986)
- В два раза мощнее Li Auto L9, в два раза... (1026)
- Характеристики «честного» смартфона... (790)
- Новый флагман Skoda Elroq vRS: спорт теперь... (955)
- Уникальную камеру Huawei Pura80 Ultra за 400... (1051)
- В «Яндекс Go» появились настоящие цвета... (638)
- Китай строит «Космический Шёлковый путь»:... (968)
- AWS с нуля разработала и начала выпуск... (1343)
- В WhatsApp появится реклама в «Статусах» и... (805)
- Планшет за $420 от китайской компании Nubia... (1383)
Кластер обучения нейросети Llama 3 405B фиксировал сбои ускорителей Nvidia H100 примерно раз в шесть часов
Дата: 2024-07-27 19:38
Современные большие нейросети обучаются на системах с огромным количеством компонентов. А чем больше компонентов, тем выше вероятность отказа. Свежий отчёт Meta* содержит информацию о том, что компания сталкивалась со сбоями ускорителей Nvidia H100 примерно раз в три часа.

Во время обучения модели Llama 3 405B на кластере, содержащем 16 384 ускорителя Nvidia H100 80 ГБ, в течение 54 дней было зафиксировано 419 сбоев, то есть в среднем один сбой каждые три часа. В 58,7% случаев виноваты были либо графические процессоры, либо их память HBM3. В целом сбои в таких сложных системах — это норма, и вопрос скорее в способности специалистов справляться с этими сбоями. В случае Meta* команда сохранила более 90% эффективного времени обучения.

Проблемные GPU были идентифицированы с помощью специализированных инструментов. Эти инструменты приоритизировали проблемные коммуникации, обеспечивая эффективное обнаружение и своевременное разрешение отстающих GPU, что гарантировало минимизацию замедлений, поддерживая общую эффективность обучения.
* Meta признана в России экстремистской организацией, её деятельность запрещена.
Подробнее на iXBT
Предыдущие новости
«Мы обнаружили, что у вас CPU Intel. У этого процессора имеются проблемы с играми на Unreal Engine 5». Игра Path of Titans предупреждает игроков о причинах сбоя
Разработчики стали предупреждать владельцев процессоров Intel Core 13-го и 14-го поколения, что сбой в игре произошёл именно из-за CPU. создано DALL-E Так стали делать разработчики Alderon Games, выпустившие игру Path of Titans на Unreal Engine 5. В случае сбоя игра выводит оповещение о том, что он произошёл из-за процессора и предлагает ссылку на подробную информацию. Игра...
Загадка антиматерии: файерболы могут объяснить избыток антигелия в эксперименте на МКС
В 2016 году физики были поражены, обнаружив антиматерию ядер гелия в ходе эксперимента на борту Международной космической станции. Однако наиболее удивительным оказалось количество этих частиц антиматерии, которое значительно превысило прогнозы Стандартной модели физики элементарных частиц. В новом исследовании международная группа физиков предложила гипотетические объекты,...
Maingear ML-17 — первый в мире ноутбук с двумя портами Thunderbolt 5. А ещё тут самые мощные компоненты, которые существуют на рынке
Компания Maingear выпустила топовый игровой ноутбук ML-17. Он предлагает фактически максимум, что есть сейчас на рынке, но и стоит немало. Независимо от модификации, ноутбук оснащён 24-ядерным Core i9-14900HX и мобильной GeForce RTX 4090 Laptop. Конфигуратор на сайте позволяет настраивать другие параметры, включая объём ОЗУ, количество и объём накопителей. Также ноутбук...
Космическая Олимпиада: астронавты NASA провели мини-соревнования на МКС в честь Игр 2024
В преддверии летних Олимпийских игр 2024 года, которые пройдут в Париже и других городах Франции, атмосфера праздника и состязаний распространилась даже на космическое пространство. Шесть астронавтов NASA, находящихся на борту Международной космической станции, решили отметить это событие, проведя свою собственную мини-Олимпиаду. NASA опубликовало двухминутный видеоролик, в...