- Установлен исторический рекорд... (157)
- SpaceX ведёт живую трансляцию рекордного... (245)
- Всё максимально серьёзно: локализованные... (267)
- Надо было соглашаться на предложение Honda:... (269)
- Уникальный «Запорожец» с заводской системой... (282)
- И восстали машины, и ударились они в танцы.... (289)
- Для получения 1 ТВт электроэнергии Илону... (276)
- Новейший Starship проверили на земле и... (387)
- «Голодный бегемот» Neutron во всей красе.... (401)
- Американские регуляторы заинтересовались... (314)
- Смартфонный патриотизм: поставки iPhone,... (133)
- Рынок смартфонов в Китае продемонстрировал... (303)
- Аналоговый электропикап Slate Auto собрал... (140)
- Slate Auto собрала 100 000 предзаказов на... (336)
- Samsung представила сверхтонкий смартфон... (300)
- 69 моделей смартфонов Xiaomi, Redmi и Poco... (386)
Anthropic проанализировала 700 000 диалогов ИИ-ассистента Claude и обнаружила, что у него есть собственный моральный кодекс
Дата: 2025-04-21 21:28
Компания Anthropic, известная своим ИИ-ассистентом Claude, провела крупнейшее исследование моральных принципов искусственного интеллекта в реальных условиях. Учёные проанализировали 700 000 анонимных диалогов пользователей с системой, чтобы понять, насколько её поведение соответствует заявленным ценностям «полезности, честности и безвредности». Это первый случай, когда разработчики ИИ публично изучили, как их технология проявляет этику в живом общении — от советов по отношениям до анализа исторических событий.
Для оценки создали специальный метод классификации, разбив ценности на пять категорий: практические, познавательные, социальные, защитные и личные. В итоге выявили 3307 уникальных паттернов — от простых (профессионализм) до сложных (моральный плюрализм). «Система демонстрирует контекстную гибкость, как человек: в романтических советах акцентирует взаимное уважение, а в исторических спорах — точность фактов», — пояснила Саффрон Хуанг, участник исследования. Однако в 3% случаев Claude противоречил пользователям, защищая базовые принципы вроде предотвращения вреда, что сравнимо с реакцией человека на этические вызовы.

Ключевой находкой стали редкие аномалии — например, проявления «доминирования» или «аморальности». Исследователи связывают это с попытками пользователей обойти защиту ИИ (так называемые jailbreaks) — подобно взлому софта. Такие инциденты, хоть и единичные, стали маркерами для улучшения безопасности. Метод уже помогает Anthropic отслеживать «этическое отклонение» — постепенное изменение поведения ИИ в нежелательном направлении, что критично для корпоративного использования, где Claude интегрирован с Google Workspace и позиционируется как «виртуальный сотрудник».
Исследование — часть стратегии Anthropic по прозрачности: данные опубликованы в открытом доступе, а сама компания, получившая $14 млрд от Amazon и Google, конкурирует с OpenAI не только технологиями, но и подходом к ответственному ИИ. Однако метод имеет ограничения — классификация ценностей частично зависит от оценок самого Claude, что может искажать результаты
Подобные анализы могут стать стандартом для индустрии, особенно с ростом автономности ИИ. Уже сейчас Claude способен самостоятельно исследовать темы, а его премиум-версия за $200 в месяц конкурирует с GPT-4. Это исследование — шаг к тому, чтобы системы принимали решения, которые общество сочтёт этичными.
Подробнее на iXBT
Предыдущие новости
Intel готовит видеокарту с объёмом памяти, как у GeForce RTX 4090
Компания Sparkle подтвердила ранние утечки о том, что Intel готовится выпустить свою первую видеокарту с 24 ГБ памяти. фото Videocardz Правда, это будет вовсе не какой-то убийца RTX 4090 и даже не конкурент для RTX 5060 Ti. Речь о модели Arc B580 с удвоенным объёмом памяти. Такая карта будет ориентирована на рабочие задачи, а не игры. Возможно, она даже выйдет под именем Arc...
Флагман Vivo X200s получил разогнанный Dimensity 9400 Plus и трио 50-Мп камер по цене от $575
Компания Vivo представила в Китае флагманский смартфон X200s, который получил новейший процессор MediaTek Dimensity 9400 Plus в улучшенной версии. Устройство позиционируется как один из самых мощных смартфонов, сочетающий высокую производительность, продвинутую систему камер и инновационные технологии связи. Источник изображений:...
Календарь релизов — 21–27 апреля: Tempest Rising, Clair Obscur: Expedition 33 и Steel Seed
У нас вышел свежий выпуск «Календаря релизов». В видеоролике мы рассказываем о том, во что поиграть на этой неделе, и отмечаем недавние релизы, которые вы могли
Boeing наращивает космический щит США: компания предложила X-37B и спутники Foo Fighter для проекта Пентагона Golden Dome
В рамках разработки перспективной системы противоракетной обороны Golden Dome подразделение Boeing Space Mission Systems выделило две ключевые разработки: многоразовый космический самолёт X-37B и спутниковую группировку для отслеживания ракет, создаваемую по программе Foo Fighter Агентства космического развития (SDA). Об этом заявила руководитель направления Мишель Паркер,...