- Лавкрафтианские ужасы на море: Epic Games... (574)
- «В канун Рождества 1969 года мы высадили... (596)
- NASA отложило запуск важной миссии по... (385)
- Продажи мизерные, но планы большие. Марка... (670)
- Глава GSC Game World отреагировал на слухи о... (593)
- AOC представила игровой QD-OLED-монитор Agon... (321)
- Oppo представила смартфон A5 Pro с защитой... (638)
- В Китае начали строить крупнейшее в мире... (627)
- AOC представила геймерский 24,5-дюймовый... (636)
- Новинки Intel 6 января представит врио... (584)
- Apple собиралась выпустить iPhone 18 без... (625)
- CD Projekt Red объяснила, почему оставила... (681)
- Сначала YouTube, теперь это? Роскомнадзор... (843)
- Из Германии с любовью: в Россию привезли... (776)
- Представлен Mercedes-Benz G-Class для... (851)
- Открытое ПО превратилось в многомиллиардную... (715)
Новая модель OpenAI o1 способна решать сложные задачи, требующие рассуждений
Дата: 2024-09-12 21:11
12 сентября компания OpenAI представила новую большую языковая модель OpenAI o1, обученную с помощью метода «обучение с подкреплением» для выполнения сложных рассуждений. Эта модель способна создавать длинную «цепочку мыслей» прежде чем ответить пользователю, что делает её более продвинутой, чем предыдущие модели.
OpenAI o1 занимает 89-й процентиль в соревновательном программировании (Codeforces) и входит в число 500 лучших «студентов» США в отборочном туре на математическую олимпиаду США (AIME). Кроме того, она превосходит точность уровня доктора философии в тесте задач по физике, биологии и химии (GPQA).
Компания OpenAI выпустила раннюю версию модели OpenAI o1-preview для использования в ChatGPT и для пользователей API. Эта модель прошла тестирование на различных экзаменах и бенчмарках машинного обучения, показав значительное улучшение рассуждений по сравнению с предыдущей моделью GPT-4o.
12 сентября OpenAI представила новую модель OpenAI o1, способную к «цепочке мыслей». Источник: OpenAIOpenAI провела тестирование модели на различных задачах, включая математические задачи, задачи по физике, биологии и химии, а также задачи по программированию. Результаты показали, что OpenAI o1 значительно превосходит предыдущую модель GPT-4o в большинстве задач, требующих рассуждений.
На экзаменах AIME 2024 года GPT-4o решила в среднем только 12% (1,8/15) задач. OpenAI o1 в среднем набрала 74% (11,1/15) с одним образцом на задачу, 83% (12,5/15) с консенсусом среди 64 образцов и 93% (13,9/15) при повторном ранжировании 1000 образцов с помощью усвоенной функции подсчёта баллов.
Компания также оценила OpenAI o1 по GPQA diamond, сложному тесту интеллекта, который проверяет знания в области химии, физики и биологии. Чтобы сравнить модели с людьми, OpenAI наняла экспертов с докторской степенью для ответа на вопросы GPQA-diamond. Результаты показали, что OpenAI o1 превзошла результаты экспертов, став первой моделью, сделавшей это в этом тесте.
Кроме того, OpenAI провела тестирование модели на человеческих предпочтениях, показав, что OpenAI o1-preview предпочтительнее GPT-4o в категориях, требующих рассуждений, таких как анализ данных, написание кода и математика. Однако OpenAI o1-preview не является предпочтительным для некоторых задач на естественном языке, что говорит о том, что она подходит не для всех сценариев использования.
OpenAI o1 также показала улучшение производительности при ключевых оценках джейлбрейка и внутренних бенчмарках для оценки границ отказа безопасности модели.
Компания планирует выпустить улучшенные версии этой модели по мере продолжения итераций. Новая возможность «рассуждений» улучшит способность согласовывать модели с человеческими ценностями и принципами, открывая новые варианты использования ИИ в науке, кодировании, математике и смежных областях.
OpenAI o1 превосходит GPT-4o в сложных тестах рассуждений. Столбцы показывают точность pass@1, а затенённая область показывает производительность с 64 образцами. Источник: OpenAIЦепочка рассуждений предоставляет новые возможности для согласования и безопасности. Компания обнаружила, что интеграция своих политик для поведения модели в «цепочку мыслей» является эффективным способом надёжного обучения человеческим ценностям и принципам. Обучая модель своим правилам безопасности и тому, как рассуждать о них в контексте, компания обнаружила доказательства того, что способность рассуждений напрямую увеличивает надёжность модели.
Для стресс-тестирования своих улучшений компания OpenAI провела ряд тестов безопасности и red-teaming [методология, используемая для тестирования и оценки безопасности, основная идея которой заключается в том, чтобы создать команду, которая будет играть роль «атакующей стороны», чтобы выявить уязвимости и слабые места в системе или стратегии] перед развёртыванием в соответствии со своей структурой готовности. Результаты показали, что цепочка рассуждений способствовала улучшению возможностей в их оценках.
Компания OpenAI считает, что скрытая цепочка мыслей представляет собой уникальную возможность для мониторинга моделей. Если она верна и понятна, то позволяет понимать «мыслительный процесс» модели. Однако для того, чтобы это работало, модель должна иметь свободу выражать свои мысли в неизменённой форме, поэтому OpenAI не может обучать какое-либо соответствие политике или предпочтениям пользователя в цепочке мыслей.
Взвесив множество факторов, включая пользовательский опыт, конкурентное преимущество и возможность продолжить мониторинг цепочки рассуждений, OpenAI решила не показывать пользователям необработанные цепочки. Компания признаёт, что это решение имеет недостатки. Чтобы частично компенсировать это, OpenAI обучает модель воспроизводить любые полезные идеи из цепочки мыслей в ответе. Для серии моделей o1 OpenAI показывает сгенерированное моделью резюме «цепочки мыслей».
OpenAI o1 представляет собой значительный шаг вперёд в области искусственного интеллекта. Эта модель способна решать сложные задачи, требующие рассуждений, и показывает улучшение производительности по сравнению с предыдущими моделями. Компания OpenAI планирует продолжить развитие этой модели и выпустить улучшенные версии.
Подробнее на iXBT
Предыдущие новости
У российских корпораций растёт интерес к строительству собственных ЦОД
В этом году в России наметилась тенденция строительства ЦОД собственными силами крупных корпораций, пишут «Ведомости» со ссылкой на заявление представителя «Систэм Электрик» (Systême Electric; ранее — Schneider Electric в РФ). Он отметил, что с 2012 года количество новых корпоративных ЦОД неуклонно снижалось, но в этом году был зафиксирован противоположный тренд — крупные...
Практически флагманская производительность, 120 Гц, IP68, 5500 мАч, 80 Вт в тонком корпусе. Представлен Vivo T3 Ultra
В линейке Vivo T3 появилась топовая модель — Vivo T3 Ultra. Смартфон построен на однокристальной системе MediaTek Dimensity 9200+, за счет чего обеспечивается практически флагманская производительность. И подобно некоторым флагманам, в этом смартфоне есть защита IP68. Изображение: Vivo Vivo T3 Ultra получил экран AMOLED с диагональю 6,78 дюйма, разрешением Full HD+, кадровой...
«Это должно быть партнёрство, основанное на доверии»: Unity окончательно отменила комиссию Runtime за количество установок игр
Производитель мультиплатформенного движка Unity в годовщину с анонса возмутившей сообщество разработчиков комиссии Runtime для создателей игр объявил об её окончательной и немедленной отмене. Источник изображения:...
Представлен смартфон Tecno Pova 6 Neo 5G: «первый в своём классе» со 108-Мп камерой
Компания Tecno представила новый смартфон Pova 6 Neo 5G, который, традиционно для бренда, отличается достойными характеристиками и невысокой стоимостью. И, как легко догадаться по названию, поддерживает сотовые сети 5G. Ранее была анонсирована модель Tecno Pova 6 Neo, у которой есть только поддержка 4G, но у новинки имеется от неё ряд отличий, и не только по части сотовых...