- Процессоры Intel и AMD подорожали на 5–20 %... (6064)
- Потенциально опасная ИИ-модель Anthropic... (4891)
- Xiaomi представила обновлённые ноутбуки... (4778)
- SK hynix построит фабрики по упаковке памяти... (4894)
- Астронавты на МКС получили новые ноутбуки —... (4817)
- Астронавты на МКС получили новые ноутбуки —... (4973)
- Плату за VPN-трафик для россиян хотят... (4520)
- Новая Divinity удивит размерами — Larian... (4388)
- Представлены смартфоны Honor 600 и 600 Pro с... (4731)
- WhatsApp предложит ИИ-сводки по всем... (5121)
- Спустя восемь запусков японские инженеры... (4836)
- Apple рискует потерять главу разработки... (5163)
- YouTube начнёт удалять дипфейки по запросам... (4936)
- SpaceX может купить ИИ-стартап Cursor за $60... (4431)
- РТК-ЦОД внедрил обновлённые решения Basis... (4807)
- Современный мир, переработанные миссии по... (5003)
Anthropic проанализировала 700 000 диалогов ИИ-ассистента Claude и обнаружила, что у него есть собственный моральный кодекс
Дата: 2025-04-21 21:28
Компания Anthropic, известная своим ИИ-ассистентом Claude, провела крупнейшее исследование моральных принципов искусственного интеллекта в реальных условиях. Учёные проанализировали 700 000 анонимных диалогов пользователей с системой, чтобы понять, насколько её поведение соответствует заявленным ценностям «полезности, честности и безвредности». Это первый случай, когда разработчики ИИ публично изучили, как их технология проявляет этику в живом общении — от советов по отношениям до анализа исторических событий.
Для оценки создали специальный метод классификации, разбив ценности на пять категорий: практические, познавательные, социальные, защитные и личные. В итоге выявили 3307 уникальных паттернов — от простых (профессионализм) до сложных (моральный плюрализм). «Система демонстрирует контекстную гибкость, как человек: в романтических советах акцентирует взаимное уважение, а в исторических спорах — точность фактов», — пояснила Саффрон Хуанг, участник исследования. Однако в 3% случаев Claude противоречил пользователям, защищая базовые принципы вроде предотвращения вреда, что сравнимо с реакцией человека на этические вызовы.
Иллюстрация: Leonardo Ключевой находкой стали редкие аномалии — например, проявления «доминирования» или «аморальности». Исследователи связывают это с попытками пользователей обойти защиту ИИ (так называемые jailbreaks) — подобно взлому софта. Такие инциденты, хоть и единичные, стали маркерами для улучшения безопасности. Метод уже помогает Anthropic отслеживать «этическое отклонение» — постепенное изменение поведения ИИ в нежелательном направлении, что критично для корпоративного использования, где Claude интегрирован с Google Workspace и позиционируется как «виртуальный сотрудник».
Исследование — часть стратегии Anthropic по прозрачности: данные опубликованы в открытом доступе, а сама компания, получившая $14 млрд от Amazon и Google, конкурирует с OpenAI не только технологиями, но и подходом к ответственному ИИ. Однако метод имеет ограничения — классификация ценностей частично зависит от оценок самого Claude, что может искажать результаты
Подобные анализы могут стать стандартом для индустрии, особенно с ростом автономности ИИ. Уже сейчас Claude способен самостоятельно исследовать темы, а его премиум-версия за $200 в месяц конкурирует с GPT-4. Это исследование — шаг к тому, чтобы системы принимали решения, которые общество сочтёт этичными.
Подробнее на iXBT
Предыдущие новости
Intel готовит видеокарту с объёмом памяти, как у GeForce RTX 4090
Компания Sparkle подтвердила ранние утечки о том, что Intel готовится выпустить свою первую видеокарту с 24 ГБ памяти. фото Videocardz Правда, это будет вовсе не какой-то убийца RTX 4090 и даже не конкурент для RTX 5060 Ti. Речь о модели Arc B580 с удвоенным объёмом памяти. Такая карта будет ориентирована на рабочие задачи, а не игры. Возможно, она даже выйдет под именем Arc...
Флагман Vivo X200s получил разогнанный Dimensity 9400 Plus и трио 50-Мп камер по цене от $575
Компания Vivo представила в Китае флагманский смартфон X200s, который получил новейший процессор MediaTek Dimensity 9400 Plus в улучшенной версии. Устройство позиционируется как один из самых мощных смартфонов, сочетающий высокую производительность, продвинутую систему камер и инновационные технологии связи. Источник изображений:...
Календарь релизов — 21–27 апреля: Tempest Rising, Clair Obscur: Expedition 33 и Steel Seed
У нас вышел свежий выпуск «Календаря релизов». В видеоролике мы рассказываем о том, во что поиграть на этой неделе, и отмечаем недавние релизы, которые вы могли
Boeing наращивает космический щит США: компания предложила X-37B и спутники Foo Fighter для проекта Пентагона Golden Dome
В рамках разработки перспективной системы противоракетной обороны Golden Dome подразделение Boeing Space Mission Systems выделило две ключевые разработки: многоразовый космический самолёт X-37B и спутниковую группировку для отслеживания ракет, создаваемую по программе Foo Fighter Агентства космического развития (SDA). Об этом заявила руководитель направления Мишель Паркер,...