- «Аквариус» анонсировала отечественные... (30)
- «С возвращением в армию, солдат»: Microsoft... (17)
- Aspyr наконец подтвердила Neverwinter Nights... (20)
- UGREEN празднует годовщину основания:... (17)
- Авторы Psychonauts анонсировали красочное... (42)
- Xiaomi пойдёт по стопам Apple — следующая... (50)
- В Android-версии WhatsApp появилась функция... (178)
- BYD заявила о своих амбициях на европейском... (130)
- На Солнце зафиксирован один из сильнейших... (186)
- «Мозг» из 10,5 млн ядер: в США создали... (82)
- Xiaomi SU7 Ultra стал первым китайским... (232)
- AMD расширила серию процессоров Ryzen Z2... (446)
- «Переосмысленная» Windows для портативных... (703)
- Новая статья: Обзор видеокарты NVIDIA... (483)
- «Жду больше, чем "Ведьмака 4"»: геймплейный... (398)
- Австралийские военные по ошибке «положили»... (635)
И целого интернета мало. Для создания больших языковых моделей нового поколения, включая GPT-5, попросту не хватает данных
Дата: 2024-04-02 14:09
Похоже, процесс создания всё более масштабных и сложных языковых моделей на основе ИИ уже упёрся в одну весьма серьёзную преграду. Для таких моделей весь интернет фактически слишком мал.

Для обучения больших языковых моделей нужно очень и очень много данных. GPT-4, согласно данным аналитика Epoch Research, обучали на 12 трлн токенов, а GPT-5, вероятно, понадобится 60-100 трлн! Конечно, во всём интернете наберётся гораздо больше, однако языковые модели учат на специально созданных базах данных, так как нельзя «скармливать» ИИ всё подряд — это слишком некачественная основа. И аналитики посчитали, что для обучения GPT-5 уже сейчас не хватает 10-20 трлн токенов. То есть примерно столько же или даже больше, чем требовала вся GPT-4.
Некоторые компании уже ищут альтернативные источники обучения данным, предлагая в качестве вариантов такие вещи, как общедоступные стенограммы видео и даже «синтетические данные», генерируемые ИИ, но последний вариант, видимо, не подойдёт.
OpenAI, к примеру, обсуждала обучение GPT-5 на основе транскрипции из общедоступных видеороликов YouTube. Аналитики пока не спешат бить тревогу, так как всё же есть варианты, как нарастить количество подходящих для обучения ИИ данных. Однако, учитывая темпы развития ИИ, если столь серьёзная загвоздка есть уже сейчас, неясно, смогут ли IT-гиганты в обозримом будущем выйти на совершенно новый уровень ИИ и создать условный GPT-6.
Подробнее на iXBT
Предыдущие новости
Пенсионер из Липецка задержан за взлом Sony PlayStation 3
Пожилого мужчину из Липецка задержали за взлом игровых приставок Sony PlayStation 3, пенсионер занимался «хакерством» в качестве подработки. Об этом сообщил портал Mash. Фото: Nikita Kostrykin / Unsplash 65-летний пенсионер-хакер по имени Аркадий оказывал с помощью специальной программы услуги по взлому приставок, чтобы пользователи могли устанавливать нелицензионную...
7 мест, 8-ступенчатый «автомат» ZF и более 100 доработок специально для России. Подробности о кроссоверах VGV U70 PRO и VGV U75 PLUS, продажи которых скоро стартуют
Бренд VGV рассказал об особенностях кроссоверов U70 PRO и U75 PLUS, продажи которых скоро будут запущены в России. Оказалось, что машины серьезно доработаны, чтобы лучше отвечать российским условиям эксплуатации. Так, в U75 PLUS внесли 141 корректировку, а в U70 PRO — 169! VGV U75 PLUS. Изображение: VGV Кроссоверы получили перекалиброванную подвеску, клиренс увеличили до 200...
Какими смартфонами Android больше всего довольны пользователи: в рейтинг AnTuTu ворвалась недорогая «темная лошадка»
Команда популярного бенчмарка AnTuTu опубликовала свежий рейтинг смартфонов, которые получили самые высокие оценки удовлетворённости пользователей, на основе операционной системы Android. По итогам марта 2024 года в рейтинге наблюдаются интересное явление. Samsung Galaxy S23 Ultra снова занял первое место в рейтинге. Смартфон набрал 95,4% позитивных отзывов. Второе место...
Google придётся избавиться от секретов пользователей. Компания обязалась удалить или обезличит миллиарды записей из режима инкогнито в Chrome
Компания Google уничтожит или обезличит миллиарды записей данных о просмотре веб-страниц, собранных в то время, когда пользователи находились в режиме инкогнито в браузере Chrome. создано DALL-E В 2020 году против Google был подан коллективный иск в суд. Компания обвинялась в незаконном отслеживании поведения пользователей при помощи функции приватного просмотра. Теперь...