- Новая статья: Обзор Nothing Phone (4a) Pro:... (6089)
- Новая статья: Обзор материнской платы MSI... (6591)
- Motorola представила смартфон Moto G Stylus... (5024)
- Motorola представила смартфон Moto G Stylus... (5924)
- Cloudflare ускорила переход на постквантовую... (6158)
- Starfield вышла на PS5, получила второй... (5838)
- В ранний доступ Steam ворвалась Road to... (5650)
- 600 г, 800 мл, и всё это мини-ПК с ценой от... (5404)
- Asus резко подняла цены на Radeon RX 9070 XT... (5064)
- Ноутбучные процессоры Snapdragon X2 Elite... (5315)
- Не новое слово на рынке, но прорыв для... (5869)
- Наконец-то ноутбук с Windows on Arm может... (5148)
- Самодельный квадрокоптер с питанием от... (5349)
- В России открывается вторая «Точка будущего»... (5566)
- CD Projekt Red раскрыла подробности... (5302)
- MacBook Neo продаётся очень хорошо, и это... (4948)
Anthropic проанализировала 700 000 диалогов ИИ-ассистента Claude и обнаружила, что у него есть собственный моральный кодекс
Дата: 2025-04-21 21:28
Компания Anthropic, известная своим ИИ-ассистентом Claude, провела крупнейшее исследование моральных принципов искусственного интеллекта в реальных условиях. Учёные проанализировали 700 000 анонимных диалогов пользователей с системой, чтобы понять, насколько её поведение соответствует заявленным ценностям «полезности, честности и безвредности». Это первый случай, когда разработчики ИИ публично изучили, как их технология проявляет этику в живом общении — от советов по отношениям до анализа исторических событий.
Для оценки создали специальный метод классификации, разбив ценности на пять категорий: практические, познавательные, социальные, защитные и личные. В итоге выявили 3307 уникальных паттернов — от простых (профессионализм) до сложных (моральный плюрализм). «Система демонстрирует контекстную гибкость, как человек: в романтических советах акцентирует взаимное уважение, а в исторических спорах — точность фактов», — пояснила Саффрон Хуанг, участник исследования. Однако в 3% случаев Claude противоречил пользователям, защищая базовые принципы вроде предотвращения вреда, что сравнимо с реакцией человека на этические вызовы.
Иллюстрация: Leonardo Ключевой находкой стали редкие аномалии — например, проявления «доминирования» или «аморальности». Исследователи связывают это с попытками пользователей обойти защиту ИИ (так называемые jailbreaks) — подобно взлому софта. Такие инциденты, хоть и единичные, стали маркерами для улучшения безопасности. Метод уже помогает Anthropic отслеживать «этическое отклонение» — постепенное изменение поведения ИИ в нежелательном направлении, что критично для корпоративного использования, где Claude интегрирован с Google Workspace и позиционируется как «виртуальный сотрудник».
Исследование — часть стратегии Anthropic по прозрачности: данные опубликованы в открытом доступе, а сама компания, получившая $14 млрд от Amazon и Google, конкурирует с OpenAI не только технологиями, но и подходом к ответственному ИИ. Однако метод имеет ограничения — классификация ценностей частично зависит от оценок самого Claude, что может искажать результаты
Подобные анализы могут стать стандартом для индустрии, особенно с ростом автономности ИИ. Уже сейчас Claude способен самостоятельно исследовать темы, а его премиум-версия за $200 в месяц конкурирует с GPT-4. Это исследование — шаг к тому, чтобы системы принимали решения, которые общество сочтёт этичными.
Подробнее на iXBT
Предыдущие новости
Intel готовит видеокарту с объёмом памяти, как у GeForce RTX 4090
Компания Sparkle подтвердила ранние утечки о том, что Intel готовится выпустить свою первую видеокарту с 24 ГБ памяти. фото Videocardz Правда, это будет вовсе не какой-то убийца RTX 4090 и даже не конкурент для RTX 5060 Ti. Речь о модели Arc B580 с удвоенным объёмом памяти. Такая карта будет ориентирована на рабочие задачи, а не игры. Возможно, она даже выйдет под именем Arc...
Флагман Vivo X200s получил разогнанный Dimensity 9400 Plus и трио 50-Мп камер по цене от $575
Компания Vivo представила в Китае флагманский смартфон X200s, который получил новейший процессор MediaTek Dimensity 9400 Plus в улучшенной версии. Устройство позиционируется как один из самых мощных смартфонов, сочетающий высокую производительность, продвинутую систему камер и инновационные технологии связи. Источник изображений:...
Календарь релизов — 21–27 апреля: Tempest Rising, Clair Obscur: Expedition 33 и Steel Seed
У нас вышел свежий выпуск «Календаря релизов». В видеоролике мы рассказываем о том, во что поиграть на этой неделе, и отмечаем недавние релизы, которые вы могли
Boeing наращивает космический щит США: компания предложила X-37B и спутники Foo Fighter для проекта Пентагона Golden Dome
В рамках разработки перспективной системы противоракетной обороны Golden Dome подразделение Boeing Space Mission Systems выделило две ключевые разработки: многоразовый космический самолёт X-37B и спутниковую группировку для отслеживания ракет, создаваемую по программе Foo Fighter Агентства космического развития (SDA). Об этом заявила руководитель направления Мишель Паркер,...