- Биткоин обвалился ниже $95 тысяч из-за... (491)
- Broadcom серьёзно взялась за ИИ-чипы — в... (527)
- Broadcom серьёзно взялась за ИИ-чипы — в... (416)
- Gmail отбил мощную волну фишинговых атак и... (476)
- Gmail отбил мощную волну фишинговых атак и... (384)
- В России создали устройство, которое должно... (579)
- В России создали уникальное устройство,... (559)
- Завод, выпускающий Solaris в России, не... (472)
- Огромный 9-местный полноприводный... (494)
- Samsung утратила лидерство в сфере дорогущих... (444)
- Чем больше у смартфонов камер, тем лучше для... (454)
- Замена Hyundai Santa Fe и Kia Sorento. Самый... (513)
- Названы самые популярные машины с пробегом в... (435)
- Дизайн в стиле Range Rover, полный привод,... (565)
- GSC выпустила для S.T.A.L.K.E.R. 2: Heart of... (375)
- Создание крупнейшего в мире детектора... (390)
К 2026 году могут закончиться данные для обучения больших языковых моделей ИИ
Дата: 2022-11-25 14:39
Большие языковые ИИ-модели на данный момент используют многие компании. Ведь с их помощью нейросети учатся генерировать связный текст или даже программный код. Эти модели обучаются на данных из «Википедии», научных работах, книгах и так далее. Тенденция последних лет состоит в том, чтобы обучать модели на всё большем объёме данных в надежде, что это сделает их более точными. Однако возникла проблема.
Как сообщается, типы данных, обычно используемые для обучения языковых моделей, могут закончиться примерно в 2026 году. Ведь исследователи создают более мощные модели со всё большими возможностями, и им нужно всё больше текстов.
Отчасти проблема проистекает из того факта, что исследователи готовят данные для обучения языковых моделей и предварительно фильтруют их по качеству. Текстами высокого качества могут быть хорошие статьи, а низкого — сообщения в социальных сетях или комментарии на сайтах. Хотя граница между этими понятиями довольно сильно размыта.
Исследователи обычно обучают модели на текстах высокого качества, что дало свои результаты в системе GPT-3 и подобных ей. Однако если проблема нехватки материала возникнет в ближайшие годы, то нейросетям можно будет «скармливать» и менее качественные тексты.
Однако не все эксперты согласны с этим. Перси Лян, профессор компьютерных наук в Стэнфордском университете, заявил, что есть доказательства того, что небольшие модели, обученные на качественных текстах, оказывались лучше, чем крупные, которые обучали на некачественных.
Также можно обучать модели на одних и тех же текстах по нескольку раз. Сейчас крупные языковые модели обучаются на одних и тех же данных только один раз. При этом в обучении нейросетей нередко принимают участие и сами пользователи. Примером может быть недавняя Galactica.
Подробнее на iXBT
Предыдущие новости
За GeForce RTX 4070 Ti, которая будет медленнее RTX 3090 Ti, в Китае будут просить 1000 долларов
Видеокарту GeForce RTX 4070 Ti должны представить в начале января. Согласно свежим данным, в Китае за неё будут просить около 1000 долларов. Напомним, RTX 4070 Ti, как ранее сообщалось, это переименованная RTX 4080 12GB, от выпуска которой Nvidia отказалась из-за волны критики. То есть, судя по всему, в США новинка с новым названием будет стоить 900 долларов без учёта...
Китай намерен построить на Луне базу с атомным реактором в ближайшие шесть лет
Китай не намерен отставать от США в вопросах исследования и освоения Луны — Поднебесная объявила, что к 2028 году намерена построить на Луне свою первую базу. Причём строительство завершится за годы до того, как на спутнике Земли высадятся первые китайские тайконавты. Источник изображения: Luke...
Золотая, пора: Илон Маск добавит золотые галочки к серым и синим в Twitter
Первоначально новый владелец Twitter Илон Маск (Elon Musk) рассчитывал вернуть подписку Twitter Blue с синими галочками к 29 ноября, но теперь ему пришлось пересмотреть не только условия подписки, но и сроки её возобновления. В дополнение к серым и синим галочкам в описании учётных записей Twitter появятся золотые, заявил миллиардер. Они появятся на страницах социальной...
В Россию приехал Ford Mustang Mach-E. У него огромный экран, хотя и не такой большой, как у Ford Mondeo 2022
В России начали продавать электрический кроссовер Ford Mustang Mach-E, который до этого не был представлен на нашем рынке. Дилер в Новосибирске предлагает новинку за 13 млн рублей. Ввезённый в нашу страну при помощи системы параллельного импорта Ford Mustang Mach-E 2022 года выпуска оснащается 258-сильным электродвигателем, «автоматом» и полным приводом, а разгон от 0 до 100...