- Почему мы до сих пор не услышали... (278)
- M**a провалила создание собственного... (265)
- Учёные нашли способ ускорить поиск жизни на... (122)
- Стартап из Израиля Remondo готовит запуск... (243)
- Они рассчитаны на температуры от –28°C до... (327)
- Стартап LambdaVision забронировал место на... (181)
- Dell представила подвесной уличный сервер... (222)
- Как в Xiaomi 17 Ultra. Новая камера Samsung... (352)
- Небольшой экран, 9000 мАч и 200 Мп с... (388)
- Ракету Vulcan временно отстранили от полётов... (265)
- Началось производство российских автомобилей... (443)
- Рекордная плотность энергии 700 Вт·ч/кг.... (294)
- Реалистичные изображения и точный,... (526)
- Утекли до презентации: Motorola Razr Fold и... (293)
- Новый Samsung Galaxy Ultra получит... (443)
- Starship теперь называют иначе: Илон Маск... (675)
Скорость обучения ИИ удвоили, более эффективно используя GPU
Дата: сегодня 07:58
Обучение больших языковых моделей обходится невероятно дорого. Дело не только в количестве графических процессоров; важно и то, насколько эффективно их используют. И по мере масштабирования моделей даже небольшие потери времени и энергии могут превратиться в огромные затраты.
Теперь группа исследователей из Массачусетского технологического института в сотрудничестве с такими компаниями, как NVidia, заявляет, что нашла удивительно практичный способ высвободить вычислительные ресурсы, которые впустую тратятся во время обучения, — в некоторых случаях это позволяет сократить общее время обучения почти вдвое.
Проблема, которую они пытаются решить, заключается в обучении с подкреплением (RL), особенно на так называемой фазе «внедрения». На этом этапе модель генерирует несколько вариантов ответов, чтобы научиться определять, какие действия приводят к лучшим результатам. Это крайне важно для моделей обучения с подкреплением, ориентированных на рассуждения, но это также медленный процесс.
Фактически, этап развертывания может составлять до 85% от общего времени выполнения. Виновником является то, что исследователи называют «распределением с длинным хвостом» длительности ответов. Большинство сгенерированных ответов завершаются быстро. Но небольшое количество занимает гораздо больше времени, чем в среднем. Поскольку графическим процессорам необходимо синхронизироваться, более быстрые из них часто простаивают, ожидая завершения работы отстающих.
Изображение Grok Решение команды из MIT, получившее название Taming the Long Tail (TLT), напрямую решает проблему неэффективного использования ресурсов. Вместо того чтобы оставлять графические процессоры простаивать в течение длительных поколений, TLT использует это время простоя для обучения облегченной «черновой» модели в режиме реального времени. Эта уменьшенная модель непрерывно обучается на основе основной модели по мере продвижения обучения.
Эта идея основана на спекулятивном декодировании — методе, при котором меньшая модель предсказывает токены раньше основной модели, что позволяет проверять несколько токенов параллельно. Традиционное спекулятивное декодирование опирается на фиксированную черновую модель, которая быстро устаревает по мере развития основной модели в процессе обучения с подкреплением. TLT меняет эту динамику. В экспериментах с использованием нескольких моделей обучения с логической ориентацией и реальных наборов данных результаты оказались значительными. Исследователи сообщают об ускорении обучения от 70% до 210% по сравнению с сильными базовыми моделями, что фактически удваивает скорость обучения во многих сценариях. Важно отметить, что точность модели осталась неизменной.
Подробнее на iXBT
Предыдущие новости
Paramount Skydance договорилась о покупке Warner Bros Discovery за $110 млрд
В борьбе за активы медиагиганта Warner Bros Discovery некоторое время назад сошлись Paramount Skydance и Netflix. Агентству Reuters стало известно, что первая из компаний отдала предпочтение предложению Paramount Skydance на сумму $110 млрд. Утверждается, что Netflix аналогичные условия предложить не смогла, а потому отказалась от попыток купить Warner Bros Discovery....
В чём камера Samsung Galaxy S26 Ultra оказалась лучше Galaxy S25 Ultra, подробно объяснил Ice Universe
Камера Samsung Galaxy S26 Ultra в целом снимает намного лучше, чем S25 Ultra, поскольку в нём решены многие проблемы, присущие S25 Ultra, такие как склонность к размытию и некорректная съёмка лиц, чрезмерное повышение резкости, а также размытие и неточное определение контуров в портретном режиме. Фото Ice Universe Как пишет инсайдер Ice Universe, в Samsung Galaxy S26 Ultra...
NASA меняет программу Artemis: отказ от ракеты за $4 млрд, интервал между миссиями хотят сократить с 42 до 10 месяцев
Появились дополнительные подробности о масштабной корректировки программы Artemis, о которой мы сообщали вчера. Подробности сообщил администратор NASA Джаред Айзекман. Главное решение — отказ от верхней ступени Exploration Upper Stage, которую Boeing разрабатывала для ракеты SLS Block 1B более 11 лет. На проект уже израсходовано свыше $4 млрд. В будущих миссиях Artemis IV и V...
Сотни сотрудников Google и OpenAI поддержали Anthropic в противостоянии с Пентагоном
Эта неделя характеризуется разразившимся скандалом между Anthropic и её правительственным клиентом в лице Министерства обороны США, который настаивал на более широком применении ИИ, чем подразумевали правила разработчика. Сотни сотрудников OpenAI и Google выразили солидарность с позицией Anthropic, которая выступает против бесконтрольного использования ИИ властями....