- Новая книга «Ведьмак» раскрыла настоящий... (612)
- Fujitsu заявила, что неоднократно... (671)
- Китай завалит рынок недорогой памятью DDR5 —... (630)
- Европа нашла, кто улучшит ракету-носитель... (717)
- IEA: мировое использование угля для... (733)
- Рамный внедорожник с дизелем, полным... (789)
- В России вновь начали собирать Mercedes-Benz... (518)
- Selectel расширил функциональность... (519)
- Создатели Frostpunk 2 отменили «смелый и... (542)
- Северный магнитный полюс Земли официально... (566)
- Ответы даже не на финансовую тематику: в... (605)
- 3,0 л, 585 л.с., полный привод 4MATIC+ и не... (546)
- YADRO обновила объектную систему хранения... (564)
- Биткоин обвалился ниже $95 тысяч из-за... (495)
- Broadcom серьёзно взялась за ИИ-чипы — в... (529)
- Broadcom серьёзно взялась за ИИ-чипы — в... (420)
К 2026 году могут закончиться данные для обучения больших языковых моделей ИИ
Дата: 2022-11-25 14:39
Большие языковые ИИ-модели на данный момент используют многие компании. Ведь с их помощью нейросети учатся генерировать связный текст или даже программный код. Эти модели обучаются на данных из «Википедии», научных работах, книгах и так далее. Тенденция последних лет состоит в том, чтобы обучать модели на всё большем объёме данных в надежде, что это сделает их более точными. Однако возникла проблема.
Как сообщается, типы данных, обычно используемые для обучения языковых моделей, могут закончиться примерно в 2026 году. Ведь исследователи создают более мощные модели со всё большими возможностями, и им нужно всё больше текстов.
Отчасти проблема проистекает из того факта, что исследователи готовят данные для обучения языковых моделей и предварительно фильтруют их по качеству. Текстами высокого качества могут быть хорошие статьи, а низкого — сообщения в социальных сетях или комментарии на сайтах. Хотя граница между этими понятиями довольно сильно размыта.
Исследователи обычно обучают модели на текстах высокого качества, что дало свои результаты в системе GPT-3 и подобных ей. Однако если проблема нехватки материала возникнет в ближайшие годы, то нейросетям можно будет «скармливать» и менее качественные тексты.
Однако не все эксперты согласны с этим. Перси Лян, профессор компьютерных наук в Стэнфордском университете, заявил, что есть доказательства того, что небольшие модели, обученные на качественных текстах, оказывались лучше, чем крупные, которые обучали на некачественных.
Также можно обучать модели на одних и тех же текстах по нескольку раз. Сейчас крупные языковые модели обучаются на одних и тех же данных только один раз. При этом в обучении нейросетей нередко принимают участие и сами пользователи. Примером может быть недавняя Galactica.
Подробнее на iXBT
Предыдущие новости
За GeForce RTX 4070 Ti, которая будет медленнее RTX 3090 Ti, в Китае будут просить 1000 долларов
Видеокарту GeForce RTX 4070 Ti должны представить в начале января. Согласно свежим данным, в Китае за неё будут просить около 1000 долларов. Напомним, RTX 4070 Ti, как ранее сообщалось, это переименованная RTX 4080 12GB, от выпуска которой Nvidia отказалась из-за волны критики. То есть, судя по всему, в США новинка с новым названием будет стоить 900 долларов без учёта...
Китай намерен построить на Луне базу с атомным реактором в ближайшие шесть лет
Китай не намерен отставать от США в вопросах исследования и освоения Луны — Поднебесная объявила, что к 2028 году намерена построить на Луне свою первую базу. Причём строительство завершится за годы до того, как на спутнике Земли высадятся первые китайские тайконавты. Источник изображения: Luke...
Золотая, пора: Илон Маск добавит золотые галочки к серым и синим в Twitter
Первоначально новый владелец Twitter Илон Маск (Elon Musk) рассчитывал вернуть подписку Twitter Blue с синими галочками к 29 ноября, но теперь ему пришлось пересмотреть не только условия подписки, но и сроки её возобновления. В дополнение к серым и синим галочкам в описании учётных записей Twitter появятся золотые, заявил миллиардер. Они появятся на страницах социальной...
В Россию приехал Ford Mustang Mach-E. У него огромный экран, хотя и не такой большой, как у Ford Mondeo 2022
В России начали продавать электрический кроссовер Ford Mustang Mach-E, который до этого не был представлен на нашем рынке. Дилер в Новосибирске предлагает новинку за 13 млн рублей. Ввезённый в нашу страну при помощи системы параллельного импорта Ford Mustang Mach-E 2022 года выпуска оснащается 258-сильным электродвигателем, «автоматом» и полным приводом, а разгон от 0 до 100...