- GeForce RTX 5090 нужно было называть RTX... (2637)
- Роскосмос: новые автономные испытания... (2004)
- Bethesda подтвердила дату выхода Doom: The... (2116)
- Альтман пообещал доступ к думающей ИИ-модели... (1964)
- Koei Tecmo анонсировала Ninja Gaiden 4 от... (2018)
- MSI выпустила тихую механическую клавиатуру... (1909)
- Учёные определили происхождение второй луны,... (1841)
- Ubisoft показала сюжетный трейлер Assassin's... (2030)
- «Разноцветные машинки уже подготовили…... (1762)
- Вышли обзоры GeForce RTX 5090 — наконец-то... (1786)
- Конфликт титанов: Маск и Альтман спорят о... (1442)
- Телескоп MeerKAT обнаружил 26 новых... (1252)
- Over the Hill отправит в золотой век... (1148)
- Роскошный британский премиум уже в России. У... (1324)
- Дебютировал защищённый смартфон MIG S6 на... (1220)
- Детекторы LIGO и Virgo помогли раскрыть... (1391)
К 2026 году могут закончиться данные для обучения больших языковых моделей ИИ
Дата: 2022-11-25 14:39
Большие языковые ИИ-модели на данный момент используют многие компании. Ведь с их помощью нейросети учатся генерировать связный текст или даже программный код. Эти модели обучаются на данных из «Википедии», научных работах, книгах и так далее. Тенденция последних лет состоит в том, чтобы обучать модели на всё большем объёме данных в надежде, что это сделает их более точными. Однако возникла проблема.
Как сообщается, типы данных, обычно используемые для обучения языковых моделей, могут закончиться примерно в 2026 году. Ведь исследователи создают более мощные модели со всё большими возможностями, и им нужно всё больше текстов.
Отчасти проблема проистекает из того факта, что исследователи готовят данные для обучения языковых моделей и предварительно фильтруют их по качеству. Текстами высокого качества могут быть хорошие статьи, а низкого — сообщения в социальных сетях или комментарии на сайтах. Хотя граница между этими понятиями довольно сильно размыта.
Исследователи обычно обучают модели на текстах высокого качества, что дало свои результаты в системе GPT-3 и подобных ей. Однако если проблема нехватки материала возникнет в ближайшие годы, то нейросетям можно будет «скармливать» и менее качественные тексты.
Однако не все эксперты согласны с этим. Перси Лян, профессор компьютерных наук в Стэнфордском университете, заявил, что есть доказательства того, что небольшие модели, обученные на качественных текстах, оказывались лучше, чем крупные, которые обучали на некачественных.
Также можно обучать модели на одних и тех же текстах по нескольку раз. Сейчас крупные языковые модели обучаются на одних и тех же данных только один раз. При этом в обучении нейросетей нередко принимают участие и сами пользователи. Примером может быть недавняя Galactica.
Подробнее на iXBT
Предыдущие новости
За GeForce RTX 4070 Ti, которая будет медленнее RTX 3090 Ti, в Китае будут просить 1000 долларов
Видеокарту GeForce RTX 4070 Ti должны представить в начале января. Согласно свежим данным, в Китае за неё будут просить около 1000 долларов. Напомним, RTX 4070 Ti, как ранее сообщалось, это переименованная RTX 4080 12GB, от выпуска которой Nvidia отказалась из-за волны критики. То есть, судя по всему, в США новинка с новым названием будет стоить 900 долларов без учёта...
Китай намерен построить на Луне базу с атомным реактором в ближайшие шесть лет
Китай не намерен отставать от США в вопросах исследования и освоения Луны — Поднебесная объявила, что к 2028 году намерена построить на Луне свою первую базу. Причём строительство завершится за годы до того, как на спутнике Земли высадятся первые китайские тайконавты. Источник изображения: Luke...
Золотая, пора: Илон Маск добавит золотые галочки к серым и синим в Twitter
Первоначально новый владелец Twitter Илон Маск (Elon Musk) рассчитывал вернуть подписку Twitter Blue с синими галочками к 29 ноября, но теперь ему пришлось пересмотреть не только условия подписки, но и сроки её возобновления. В дополнение к серым и синим галочкам в описании учётных записей Twitter появятся золотые, заявил миллиардер. Они появятся на страницах социальной...
В Россию приехал Ford Mustang Mach-E. У него огромный экран, хотя и не такой большой, как у Ford Mondeo 2022
В России начали продавать электрический кроссовер Ford Mustang Mach-E, который до этого не был представлен на нашем рынке. Дилер в Новосибирске предлагает новинку за 13 млн рублей. Ввезённый в нашу страну при помощи системы параллельного импорта Ford Mustang Mach-E 2022 года выпуска оснащается 258-сильным электродвигателем, «автоматом» и полным приводом, а разгон от 0 до 100...