- Роскомнадзор внёс WhatsApp в реестр... (838)
- В Epic Games Store стартовала раздача новой... (843)
- Экран как у Samsung Galaxy S25 Plus, камера... (860)
- Особая Toyota Camry Brilliant Edition... (671)
- «Это важная часть жизни»: CD Projekt Red... (600)
- Дистрибутор Honda в России запускает продажи... (557)
- Larian пригласила игроков на тестирование... (588)
- Lian Li выпустила «беспроводные» вентиляторы... (668)
- Немецкий седан с надёжным двигателем и... (573)
- Платы Gigabyte Aorus Elite B850 WiFi7 и... (822)
- Стартап Firefly с украинскими корнями... (609)
- Смартфонам Motorola грозит запрет в США за... (642)
- Евросоюз дал добро на поглощение Nvidia... (842)
- Роскомнадзор внёс WhatsApp* в реестр... (894)
- Эффект от победы Трампа иссяк: акции Tesla... (838)
- YouTube объявил войну «вопиющему кликбейту»... (899)
К 2026 году могут закончиться данные для обучения больших языковых моделей ИИ
Дата: 2022-11-25 14:39
Большие языковые ИИ-модели на данный момент используют многие компании. Ведь с их помощью нейросети учатся генерировать связный текст или даже программный код. Эти модели обучаются на данных из «Википедии», научных работах, книгах и так далее. Тенденция последних лет состоит в том, чтобы обучать модели на всё большем объёме данных в надежде, что это сделает их более точными. Однако возникла проблема.
Как сообщается, типы данных, обычно используемые для обучения языковых моделей, могут закончиться примерно в 2026 году. Ведь исследователи создают более мощные модели со всё большими возможностями, и им нужно всё больше текстов.
Отчасти проблема проистекает из того факта, что исследователи готовят данные для обучения языковых моделей и предварительно фильтруют их по качеству. Текстами высокого качества могут быть хорошие статьи, а низкого — сообщения в социальных сетях или комментарии на сайтах. Хотя граница между этими понятиями довольно сильно размыта.
Исследователи обычно обучают модели на текстах высокого качества, что дало свои результаты в системе GPT-3 и подобных ей. Однако если проблема нехватки материала возникнет в ближайшие годы, то нейросетям можно будет «скармливать» и менее качественные тексты.
Однако не все эксперты согласны с этим. Перси Лян, профессор компьютерных наук в Стэнфордском университете, заявил, что есть доказательства того, что небольшие модели, обученные на качественных текстах, оказывались лучше, чем крупные, которые обучали на некачественных.
Также можно обучать модели на одних и тех же текстах по нескольку раз. Сейчас крупные языковые модели обучаются на одних и тех же данных только один раз. При этом в обучении нейросетей нередко принимают участие и сами пользователи. Примером может быть недавняя Galactica.
Подробнее на iXBT
Предыдущие новости
За GeForce RTX 4070 Ti, которая будет медленнее RTX 3090 Ti, в Китае будут просить 1000 долларов
Видеокарту GeForce RTX 4070 Ti должны представить в начале января. Согласно свежим данным, в Китае за неё будут просить около 1000 долларов. Напомним, RTX 4070 Ti, как ранее сообщалось, это переименованная RTX 4080 12GB, от выпуска которой Nvidia отказалась из-за волны критики. То есть, судя по всему, в США новинка с новым названием будет стоить 900 долларов без учёта...
Китай намерен построить на Луне базу с атомным реактором в ближайшие шесть лет
Китай не намерен отставать от США в вопросах исследования и освоения Луны — Поднебесная объявила, что к 2028 году намерена построить на Луне свою первую базу. Причём строительство завершится за годы до того, как на спутнике Земли высадятся первые китайские тайконавты. Источник изображения: Luke...
Золотая, пора: Илон Маск добавит золотые галочки к серым и синим в Twitter
Первоначально новый владелец Twitter Илон Маск (Elon Musk) рассчитывал вернуть подписку Twitter Blue с синими галочками к 29 ноября, но теперь ему пришлось пересмотреть не только условия подписки, но и сроки её возобновления. В дополнение к серым и синим галочкам в описании учётных записей Twitter появятся золотые, заявил миллиардер. Они появятся на страницах социальной...
В Россию приехал Ford Mustang Mach-E. У него огромный экран, хотя и не такой большой, как у Ford Mondeo 2022
В России начали продавать электрический кроссовер Ford Mustang Mach-E, который до этого не был представлен на нашем рынке. Дилер в Новосибирске предлагает новинку за 13 млн рублей. Ввезённый в нашу страну при помощи системы параллельного импорта Ford Mustang Mach-E 2022 года выпуска оснащается 258-сильным электродвигателем, «автоматом» и полным приводом, а разгон от 0 до 100...