- iPhone научатся дольше работать от батареи —... (477)
- Вышла iOS 18.5, которая принесла на iPhone... (464)
- Новая статья: Обзор робота-пылесоса Midea... (421)
- Volkswagen Passat 2025 «продается как... (448)
- Sony случайно «слила» трейлер с датой выхода... (429)
- Ученые предложили простое решение метановой... (420)
- Космический аппарат NASA Europa Clipper... (428)
- Sony продолжает гнуть свою линию.... (438)
- Это считалось невозможным. Специалистам Tiny... (488)
- Doom: The Dark Ages по ошибке вышла в Steam... (448)
- Google и Elementl реализуют в США три... (418)
- Gigabyte наделила свою системную плату... (435)
- Microsoft показала, каким мог бы быть новый... (440)
- Календарь релизов — 12–18 мая: Doom: The... (419)
- Американские дети уничтожают школьные... (389)
- Western Digital инвестирует в технологию... (343)
Anthropic проанализировала 700 000 диалогов ИИ-ассистента Claude и обнаружила, что у него есть собственный моральный кодекс
Дата: 2025-04-21 21:28
Компания Anthropic, известная своим ИИ-ассистентом Claude, провела крупнейшее исследование моральных принципов искусственного интеллекта в реальных условиях. Учёные проанализировали 700 000 анонимных диалогов пользователей с системой, чтобы понять, насколько её поведение соответствует заявленным ценностям «полезности, честности и безвредности». Это первый случай, когда разработчики ИИ публично изучили, как их технология проявляет этику в живом общении — от советов по отношениям до анализа исторических событий.
Для оценки создали специальный метод классификации, разбив ценности на пять категорий: практические, познавательные, социальные, защитные и личные. В итоге выявили 3307 уникальных паттернов — от простых (профессионализм) до сложных (моральный плюрализм). «Система демонстрирует контекстную гибкость, как человек: в романтических советах акцентирует взаимное уважение, а в исторических спорах — точность фактов», — пояснила Саффрон Хуанг, участник исследования. Однако в 3% случаев Claude противоречил пользователям, защищая базовые принципы вроде предотвращения вреда, что сравнимо с реакцией человека на этические вызовы.

Ключевой находкой стали редкие аномалии — например, проявления «доминирования» или «аморальности». Исследователи связывают это с попытками пользователей обойти защиту ИИ (так называемые jailbreaks) — подобно взлому софта. Такие инциденты, хоть и единичные, стали маркерами для улучшения безопасности. Метод уже помогает Anthropic отслеживать «этическое отклонение» — постепенное изменение поведения ИИ в нежелательном направлении, что критично для корпоративного использования, где Claude интегрирован с Google Workspace и позиционируется как «виртуальный сотрудник».
Исследование — часть стратегии Anthropic по прозрачности: данные опубликованы в открытом доступе, а сама компания, получившая $14 млрд от Amazon и Google, конкурирует с OpenAI не только технологиями, но и подходом к ответственному ИИ. Однако метод имеет ограничения — классификация ценностей частично зависит от оценок самого Claude, что может искажать результаты
Подобные анализы могут стать стандартом для индустрии, особенно с ростом автономности ИИ. Уже сейчас Claude способен самостоятельно исследовать темы, а его премиум-версия за $200 в месяц конкурирует с GPT-4. Это исследование — шаг к тому, чтобы системы принимали решения, которые общество сочтёт этичными.
Подробнее на iXBT
Предыдущие новости
Intel готовит видеокарту с объёмом памяти, как у GeForce RTX 4090
Компания Sparkle подтвердила ранние утечки о том, что Intel готовится выпустить свою первую видеокарту с 24 ГБ памяти. фото Videocardz Правда, это будет вовсе не какой-то убийца RTX 4090 и даже не конкурент для RTX 5060 Ti. Речь о модели Arc B580 с удвоенным объёмом памяти. Такая карта будет ориентирована на рабочие задачи, а не игры. Возможно, она даже выйдет под именем Arc...
Флагман Vivo X200s получил разогнанный Dimensity 9400 Plus и трио 50-Мп камер по цене от $575
Компания Vivo представила в Китае флагманский смартфон X200s, который получил новейший процессор MediaTek Dimensity 9400 Plus в улучшенной версии. Устройство позиционируется как один из самых мощных смартфонов, сочетающий высокую производительность, продвинутую систему камер и инновационные технологии связи. Источник изображений:...
Календарь релизов — 21–27 апреля: Tempest Rising, Clair Obscur: Expedition 33 и Steel Seed
У нас вышел свежий выпуск «Календаря релизов». В видеоролике мы рассказываем о том, во что поиграть на этой неделе, и отмечаем недавние релизы, которые вы могли
Boeing наращивает космический щит США: компания предложила X-37B и спутники Foo Fighter для проекта Пентагона Golden Dome
В рамках разработки перспективной системы противоракетной обороны Golden Dome подразделение Boeing Space Mission Systems выделило две ключевые разработки: многоразовый космический самолёт X-37B и спутниковую группировку для отслеживания ракет, создаваемую по программе Foo Fighter Агентства космического развития (SDA). Об этом заявила руководитель направления Мишель Паркер,...