Рекурсивный акроним словосочетания «PHP: Hypertext Preprocessor»

Добро пожаловать на форум PHP программистов!

За последние 24 часа нас посетил 64291 программист и 2913 роботов. Сейчас ищут 1302 программиста ...

Последние

Скорость обучения ИИ удвоили, более эффективно используя GPU

Дата: сегодня 07:58

Обучение больших языковых моделей обходится невероятно дорого. Дело не только в количестве графических процессоров; важно и то, насколько эффективно их используют. И по мере масштабирования моделей даже небольшие потери времени и энергии могут превратиться в огромные затраты.

Теперь группа исследователей из Массачусетского технологического института в сотрудничестве с такими компаниями, как NVidia, заявляет, что нашла удивительно практичный способ высвободить вычислительные ресурсы, которые впустую тратятся во время обучения, — в некоторых случаях это позволяет сократить общее время обучения почти вдвое.

Проблема, которую они пытаются решить, заключается в обучении с подкреплением (RL), особенно на так называемой фазе «внедрения». На этом этапе модель генерирует несколько вариантов ответов, чтобы научиться определять, какие действия приводят к лучшим результатам. Это крайне важно для моделей обучения с подкреплением, ориентированных на рассуждения, но это также медленный процесс.

Фактически, этап развертывания может составлять до 85% от общего времени выполнения. Виновником является то, что исследователи называют «распределением с длинным хвостом» длительности ответов. Большинство сгенерированных ответов завершаются быстро. Но небольшое количество занимает гораздо больше времени, чем в среднем. Поскольку графическим процессорам необходимо синхронизироваться, более быстрые из них часто простаивают, ожидая завершения работы отстающих.

Изображение Grok

Решение команды из MIT, получившее название Taming the Long Tail (TLT), напрямую решает проблему неэффективного использования ресурсов. Вместо того чтобы оставлять графические процессоры простаивать в течение длительных поколений, TLT использует это время простоя для обучения облегченной «черновой» модели в режиме реального времени. Эта уменьшенная модель непрерывно обучается на основе основной модели по мере продвижения обучения.

Эта идея основана на спекулятивном декодировании — методе, при котором меньшая модель предсказывает токены раньше основной модели, что позволяет проверять несколько токенов параллельно. Традиционное спекулятивное декодирование опирается на фиксированную черновую модель, которая быстро устаревает по мере развития основной модели в процессе обучения с подкреплением. TLT меняет эту динамику. В экспериментах с использованием нескольких моделей обучения с логической ориентацией и реальных наборов данных результаты оказались значительными. Исследователи сообщают об ускорении обучения от 70% до 210% по сравнению с сильными базовыми моделями, что фактически удваивает скорость обучения во многих сценариях. Важно отметить, что точность модели осталась неизменной.

Подробнее на iXBT

Предыдущие новости

3Dnews.ru, сегодня 07:50
Paramount Skydance договорилась о покупке Warner Bros Discovery за $110 млрд

В борьбе за активы медиагиганта Warner Bros Discovery некоторое время назад сошлись Paramount Skydance и Netflix. Агентству Reuters стало известно, что первая из компаний отдала предпочтение предложению Paramount Skydance на сумму $110 млрд. Утверждается, что Netflix аналогичные условия предложить не смогла, а потому отказалась от попыток купить Warner Bros Discovery....

iXBT, сегодня 07:18
В чём камера Samsung Galaxy S26 Ultra оказалась лучше Galaxy S25 Ultra, подробно объяснил Ice Universe

Камера Samsung Galaxy S26 Ultra в целом снимает намного лучше, чем S25 Ultra, поскольку в нём решены многие проблемы, присущие S25 Ultra, такие как склонность к размытию и некорректная съёмка лиц, чрезмерное повышение резкости, а также размытие и неточное определение контуров в портретном режиме. Фото Ice Universe Как пишет инсайдер Ice Universe, в Samsung Galaxy S26 Ultra...

iXBT, сегодня 07:24
NASA меняет программу Artemis: отказ от ракеты за $4 млрд, интервал между миссиями хотят сократить с 42 до 10 месяцев

Появились дополнительные подробности о масштабной корректировки программы Artemis, о которой мы сообщали вчера. Подробности сообщил администратор NASA Джаред Айзекман. Главное решение — отказ от верхней ступени Exploration Upper Stage, которую Boeing разрабатывала для ракеты SLS Block 1B более 11 лет. На проект уже израсходовано свыше $4 млрд. В будущих миссиях Artemis IV и V...

3Dnews.ru, сегодня 07:15
Сотни сотрудников Google и OpenAI поддержали Anthropic в противостоянии с Пентагоном

Эта неделя характеризуется разразившимся скандалом между Anthropic и её правительственным клиентом в лице Министерства обороны США, который настаивал на более широком применении ИИ, чем подразумевали правила разработчика. Сотни сотрудников OpenAI и Google выразили солидарность с позицией Anthropic, которая выступает против бесконтрольного использования ИИ властями....