- Создание крупнейшего в мире детектора... (524)
- Санкции? Не слышали: в России начались... (729)
- «Альфа-Банк» изыскал рабочий способ оплаты... (509)
- В «Яндекс Go» теперь можно пожаловаться на... (489)
- «Билайн» начал блокировать исходящие звонки... (501)
- В Wildberries запустили нейросеть для... (502)
- В СУБД Яндекса реализована поддержка... (479)
- Украденные банковские карты не пройдут: в... (422)
- Надёжный 2,0-литровый мотор и полноценный... (563)
- От GeForce RTX 5050 до GeForce RTХ 5090Ti... (506)
- Выбираем подарки к Новому году с партнёрами... (545)
- Космонавты Вагнер и Овчинин выбросили в... (528)
- Создание крупнейшего в мире детектора... (574)
- Новогоднее предложение: MAIBENBEN S14A —... (456)
- В России создали доверенный... (440)
- Китайская GAC представила электролёт AirJet,... (460)
К 2026 году могут закончиться данные для обучения больших языковых моделей ИИ
Дата: 2022-11-25 14:39
Большие языковые ИИ-модели на данный момент используют многие компании. Ведь с их помощью нейросети учатся генерировать связный текст или даже программный код. Эти модели обучаются на данных из «Википедии», научных работах, книгах и так далее. Тенденция последних лет состоит в том, чтобы обучать модели на всё большем объёме данных в надежде, что это сделает их более точными. Однако возникла проблема.
Как сообщается, типы данных, обычно используемые для обучения языковых моделей, могут закончиться примерно в 2026 году. Ведь исследователи создают более мощные модели со всё большими возможностями, и им нужно всё больше текстов.
Отчасти проблема проистекает из того факта, что исследователи готовят данные для обучения языковых моделей и предварительно фильтруют их по качеству. Текстами высокого качества могут быть хорошие статьи, а низкого — сообщения в социальных сетях или комментарии на сайтах. Хотя граница между этими понятиями довольно сильно размыта.
Исследователи обычно обучают модели на текстах высокого качества, что дало свои результаты в системе GPT-3 и подобных ей. Однако если проблема нехватки материала возникнет в ближайшие годы, то нейросетям можно будет «скармливать» и менее качественные тексты.
Однако не все эксперты согласны с этим. Перси Лян, профессор компьютерных наук в Стэнфордском университете, заявил, что есть доказательства того, что небольшие модели, обученные на качественных текстах, оказывались лучше, чем крупные, которые обучали на некачественных.
Также можно обучать модели на одних и тех же текстах по нескольку раз. Сейчас крупные языковые модели обучаются на одних и тех же данных только один раз. При этом в обучении нейросетей нередко принимают участие и сами пользователи. Примером может быть недавняя Galactica.
Подробнее на iXBT
Предыдущие новости
За GeForce RTX 4070 Ti, которая будет медленнее RTX 3090 Ti, в Китае будут просить 1000 долларов
Видеокарту GeForce RTX 4070 Ti должны представить в начале января. Согласно свежим данным, в Китае за неё будут просить около 1000 долларов. Напомним, RTX 4070 Ti, как ранее сообщалось, это переименованная RTX 4080 12GB, от выпуска которой Nvidia отказалась из-за волны критики. То есть, судя по всему, в США новинка с новым названием будет стоить 900 долларов без учёта...
Китай намерен построить на Луне базу с атомным реактором в ближайшие шесть лет
Китай не намерен отставать от США в вопросах исследования и освоения Луны — Поднебесная объявила, что к 2028 году намерена построить на Луне свою первую базу. Причём строительство завершится за годы до того, как на спутнике Земли высадятся первые китайские тайконавты. Источник изображения: Luke...
Золотая, пора: Илон Маск добавит золотые галочки к серым и синим в Twitter
Первоначально новый владелец Twitter Илон Маск (Elon Musk) рассчитывал вернуть подписку Twitter Blue с синими галочками к 29 ноября, но теперь ему пришлось пересмотреть не только условия подписки, но и сроки её возобновления. В дополнение к серым и синим галочкам в описании учётных записей Twitter появятся золотые, заявил миллиардер. Они появятся на страницах социальной...
В Россию приехал Ford Mustang Mach-E. У него огромный экран, хотя и не такой большой, как у Ford Mondeo 2022
В России начали продавать электрический кроссовер Ford Mustang Mach-E, который до этого не был представлен на нашем рынке. Дилер в Новосибирске предлагает новинку за 13 млн рублей. Ввезённый в нашу страну при помощи системы параллельного импорта Ford Mustang Mach-E 2022 года выпуска оснащается 258-сильным электродвигателем, «автоматом» и полным приводом, а разгон от 0 до 100...