- Солнце могло мигрировать из внутренней части... (4742)
- Учёные открыли соединение... (5003)
- Xiaomi запустила в Китае новую стиральную... (5241)
- Apple отпразднует 50-летие мероприятиями «по... (4420)
- Группа ИИ-агентов взломала базу данных... (4541)
- Nvidia нашла оригинальный способ выбивать... (5268)
- Huawei Enjoy 90 Pro Max с батареей 8500 мА·ч... (5247)
- Межзвездная комета 3I/ATLAS оказалась... (4815)
- Сэм Альтман признал, что ИИ разрушает баланс... (4205)
- Телескоп LOFAR обнаружил 13,7 млн ранее... (4572)
- Adobe заплатит $150 млн по иску о платной... (4756)
- Amazon начнёт запускать ИИ-модели на... (4094)
- Silicon Motion представила контроллер SM8008... (4638)
- M**a скоро отключит сквозное шифрование для... (4998)
- Землю накрыла первая продолжительная... (4466)
- Ещё недавно в этой стране за использование... (5218)
98,7% опасных запросов заблокировано: OpenAI усиливает защиту ИИ-моделей от биоугроз с помощью автоматизированного мониторинга
Дата: 2025-04-19 20:21
Компания OpenAI объявила о внедрении новой системы безопасности для своих моделей o3 и o4-mini, направленной на предотвращение их использования в создании биологических и химических угроз. Разработанный монитор анализирует запросы пользователей в реальном времени и блокирует те, что связаны с рискованными сценариями, такими как разработка биологического оружия.
Согласно внутреннему отчёту OpenAI, система основана на алгоритме, который отслеживает «рассуждения» моделей, чтобы выявлять нарушения политик контента. В рамках тестирования специальная группа по проверкам на уязвимости (так называемая «красная команда») потратила более 1000 часов на симулирование опасных диалогов. В 98,7% случаев o3 и o4-mini отказывались предоставлять информацию, связанную с биоугрозами. Однако компания признаёт, что тесты не учитывали ситуации, когда пользователи повторно формулируют запрещённые запросы после блокировки. Поэтому часть ответственности по-прежнему возложена на человеческий контроль.
Источник: David Paul Morris / Bloomberg Новые модели, особенно o3, демонстрируют повышенную эффективность в ответах на сложные технические вопросы, что, по оценкам OpenAI, увеличивает потенциальные риски. Хотя текущие версии не достигают «порога высокого риска», их возможности превосходят предыдущие разработки, включая GPT-4. Для минимизации угроз компания интегрировала аналогичную систему мониторинга в генератор изображений GPT-4o, который теперь автоматически блокирует попытки создания изображения запрещённых тематик (CSAM).
Критики, включая партнёра по тестированию Metr, указывают на недостатки в подходе OpenAI. Например, для модели o3 было выделено мало времени на проверку устойчивости к обманным тактикам. Кроме того, запуск GPT-4.1 на прошлой неделе прошёл без публикации отчёта по безопасности, что вызвало вопросы о прозрачности компании.
OpenAI продолжает совершенствовать «Рамочную программу готовности», акцентируя внимание на химических и биологических угрозах. Несмотря на прогресс в автоматизации, баланс между инновациями и безопасностью остаётся сложной задачей. Успех новых мер во многом зависит от способности систем адаптироваться к эволюции методов злоумышленников, а также от сотрудничества разработчиков с независимыми исследователями.
Подробнее на iXBT
Предыдущие новости
Тут вам и новейшая RTX 5060 Laptop, и Ryzen AI 7 350 для соответствия категории Copilot+, и отличный экран. Представлен ноутбук Asus TUF Gaming A14
Компания Asus представила новую версию ноутбука TUF Gaming A14, которая сочетает сразу несколько привлекательных функций и особенностей. фото Asus Во-первых, тут установлена новейшая GeForce RTX 5060 Laptop в виде 110-ваттной версии. Во-вторых, в основе лежит очень энергоэффективный и весьма мощный процессор Ryzen AI 7 350, который заодно соответствует категории Copilot+. ...
Учёные открыли новый цвет, который невозможно увидеть без стимуляции глаза лазером
Исследователи из Калифорнийского университета в Беркли утверждают, что открыли новый цвет, который невозможно увидеть в обычных условиях. С помощью лазера они стимулировали отдельные клетки сетчатки глаза, в результате чего участники эксперимента увидели оттенок, выходящий за пределы естественного восприятия человеческого зрения. Об этом рассказала The Guardian. Источник...
У земных лишайников обнаружился потенциал для выживания на Марсе
Вопрос о том, существовала ли на Марсе жизнь, остаётся открытым до сих пор, а его нынешняя среда с интенсивной радиацией и разреженной атмосферой представляется для жизни совсем не благоприятной. Но есть версия, что там моли бы выжить земные лишайники. И недавно она нашла новое подтверждение. Источник изображения: David Clode /...
Квантовые компьютеры не так безопасны, как считалось: обнаружен новый метод взлома
Исследователи раскрыли уязвимость квантовых компьютеров, адаптировав атаку Rowhammer, известную в классических системах. Rowhammer нарушает работу памяти DRAM, многократно обращаясь к соседним ячейкам. Ученые из Гданьского университета показали, что аналогичный эффект достижим в квантовых системах: многократные манипуляции с кубитами вызывают перекрестные помехи, изменяя...