- Intel закрыла часть проектов и уволила до 20... (154)
- Intel была вынуждена сократить до 20 %... (233)
- Огромный Chevrolet Tahoe 2025 с новым... (228)
- «Нет, я не хочу, чтобы кто-то умирал. Я... (233)
- На падающем рынке ПК компания Lenovo смогла... (244)
- Intel откладывает строительство предприятий... (243)
- «Неконституционное превышение... (171)
- 18 штатов США подали в суд на SEC за... (348)
- Anthropic и правительство США проверяют... (325)
- Applied Materials намекнула, что спрос на... (481)
- Каждый пятый ПК теперь оснащён... (492)
- Оковы окон: российские госкомпании... (504)
- На Android вышла «лучшая альтернатива»... (543)
- Новая статья: Обзор игрового ноутбука OSiO... (513)
- Microsoft подтвердила русскую локализацию... (538)
- Культовый спортседан Mercedes-Benz 190E... (540)
И целого интернета мало. Для создания больших языковых моделей нового поколения, включая GPT-5, попросту не хватает данных
Дата: 2024-04-02 14:09
Похоже, процесс создания всё более масштабных и сложных языковых моделей на основе ИИ уже упёрся в одну весьма серьёзную преграду. Для таких моделей весь интернет фактически слишком мал.
создано DALL-EДля обучения больших языковых моделей нужно очень и очень много данных. GPT-4, согласно данным аналитика Epoch Research, обучали на 12 трлн токенов, а GPT-5, вероятно, понадобится 60-100 трлн! Конечно, во всём интернете наберётся гораздо больше, однако языковые модели учат на специально созданных базах данных, так как нельзя «скармливать» ИИ всё подряд — это слишком некачественная основа. И аналитики посчитали, что для обучения GPT-5 уже сейчас не хватает 10-20 трлн токенов. То есть примерно столько же или даже больше, чем требовала вся GPT-4.
Некоторые компании уже ищут альтернативные источники обучения данным, предлагая в качестве вариантов такие вещи, как общедоступные стенограммы видео и даже «синтетические данные», генерируемые ИИ, но последний вариант, видимо, не подойдёт.
OpenAI, к примеру, обсуждала обучение GPT-5 на основе транскрипции из общедоступных видеороликов YouTube. Аналитики пока не спешат бить тревогу, так как всё же есть варианты, как нарастить количество подходящих для обучения ИИ данных. Однако, учитывая темпы развития ИИ, если столь серьёзная загвоздка есть уже сейчас, неясно, смогут ли IT-гиганты в обозримом будущем выйти на совершенно новый уровень ИИ и создать условный GPT-6.
Подробнее на iXBT
Предыдущие новости
Пенсионер из Липецка задержан за взлом Sony PlayStation 3
Пожилого мужчину из Липецка задержали за взлом игровых приставок Sony PlayStation 3, пенсионер занимался «хакерством» в качестве подработки. Об этом сообщил портал Mash. Фото: Nikita Kostrykin / Unsplash 65-летний пенсионер-хакер по имени Аркадий оказывал с помощью специальной программы услуги по взлому приставок, чтобы пользователи могли устанавливать нелицензионную...
7 мест, 8-ступенчатый «автомат» ZF и более 100 доработок специально для России. Подробности о кроссоверах VGV U70 PRO и VGV U75 PLUS, продажи которых скоро стартуют
Бренд VGV рассказал об особенностях кроссоверов U70 PRO и U75 PLUS, продажи которых скоро будут запущены в России. Оказалось, что машины серьезно доработаны, чтобы лучше отвечать российским условиям эксплуатации. Так, в U75 PLUS внесли 141 корректировку, а в U70 PRO — 169! VGV U75 PLUS. Изображение: VGV Кроссоверы получили перекалиброванную подвеску, клиренс увеличили до 200...
Какими смартфонами Android больше всего довольны пользователи: в рейтинг AnTuTu ворвалась недорогая «темная лошадка»
Команда популярного бенчмарка AnTuTu опубликовала свежий рейтинг смартфонов, которые получили самые высокие оценки удовлетворённости пользователей, на основе операционной системы Android. По итогам марта 2024 года в рейтинге наблюдаются интересное явление. Samsung Galaxy S23 Ultra снова занял первое место в рейтинге. Смартфон набрал 95,4% позитивных отзывов. Второе место...
Google придётся избавиться от секретов пользователей. Компания обязалась удалить или обезличит миллиарды записей из режима инкогнито в Chrome
Компания Google уничтожит или обезличит миллиарды записей данных о просмотре веб-страниц, собранных в то время, когда пользователи находились в режиме инкогнито в браузере Chrome. создано DALL-E В 2020 году против Google был подан коллективный иск в суд. Компания обвинялась в незаконном отслеживании поведения пользователей при помощи функции приватного просмотра. Теперь...