- Telegram оштрафовали в России на 7 млн... (4619)
- Starfield впервые за три года возглавила... (6667)
- Тим Кук продолжит представлять Apple в... (5675)
- Sony и Honda почти закрыли совместное... (6997)
- Представлен компактный планшет Oppo Pad Mini... (5035)
- Xiaomi представила свой первый смартфон с... (5737)
- «Чисто сюжетное приключение»: инсайдер... (5182)
- Руководитель Intel намекнул на появление... (5372)
- В ближайшие годы человек станет «ходячим... (5542)
- Представлена функция OpenAI Chronicle —... (5167)
- Британия проверит Telegram, Teen Chat и Chat... (5903)
- Национального мессенджера Max больше нет —... (5432)
- В Apple ждут, что Джон Тернус будет... (7630)
- Защищённый планшет Honor Pad X8b поступил в... (4873)
- Рискованный эксперимент ровера Curiosity... (5400)
- Представлен флагман Oppo Find X9 Ultra с... (8092)
Anthropic проанализировала 700 000 диалогов ИИ-ассистента Claude и обнаружила, что у него есть собственный моральный кодекс
Дата: 2025-04-21 21:28
Компания Anthropic, известная своим ИИ-ассистентом Claude, провела крупнейшее исследование моральных принципов искусственного интеллекта в реальных условиях. Учёные проанализировали 700 000 анонимных диалогов пользователей с системой, чтобы понять, насколько её поведение соответствует заявленным ценностям «полезности, честности и безвредности». Это первый случай, когда разработчики ИИ публично изучили, как их технология проявляет этику в живом общении — от советов по отношениям до анализа исторических событий.
Для оценки создали специальный метод классификации, разбив ценности на пять категорий: практические, познавательные, социальные, защитные и личные. В итоге выявили 3307 уникальных паттернов — от простых (профессионализм) до сложных (моральный плюрализм). «Система демонстрирует контекстную гибкость, как человек: в романтических советах акцентирует взаимное уважение, а в исторических спорах — точность фактов», — пояснила Саффрон Хуанг, участник исследования. Однако в 3% случаев Claude противоречил пользователям, защищая базовые принципы вроде предотвращения вреда, что сравнимо с реакцией человека на этические вызовы.
Иллюстрация: Leonardo Ключевой находкой стали редкие аномалии — например, проявления «доминирования» или «аморальности». Исследователи связывают это с попытками пользователей обойти защиту ИИ (так называемые jailbreaks) — подобно взлому софта. Такие инциденты, хоть и единичные, стали маркерами для улучшения безопасности. Метод уже помогает Anthropic отслеживать «этическое отклонение» — постепенное изменение поведения ИИ в нежелательном направлении, что критично для корпоративного использования, где Claude интегрирован с Google Workspace и позиционируется как «виртуальный сотрудник».
Исследование — часть стратегии Anthropic по прозрачности: данные опубликованы в открытом доступе, а сама компания, получившая $14 млрд от Amazon и Google, конкурирует с OpenAI не только технологиями, но и подходом к ответственному ИИ. Однако метод имеет ограничения — классификация ценностей частично зависит от оценок самого Claude, что может искажать результаты
Подобные анализы могут стать стандартом для индустрии, особенно с ростом автономности ИИ. Уже сейчас Claude способен самостоятельно исследовать темы, а его премиум-версия за $200 в месяц конкурирует с GPT-4. Это исследование — шаг к тому, чтобы системы принимали решения, которые общество сочтёт этичными.
Подробнее на iXBT
Предыдущие новости
Intel готовит видеокарту с объёмом памяти, как у GeForce RTX 4090
Компания Sparkle подтвердила ранние утечки о том, что Intel готовится выпустить свою первую видеокарту с 24 ГБ памяти. фото Videocardz Правда, это будет вовсе не какой-то убийца RTX 4090 и даже не конкурент для RTX 5060 Ti. Речь о модели Arc B580 с удвоенным объёмом памяти. Такая карта будет ориентирована на рабочие задачи, а не игры. Возможно, она даже выйдет под именем Arc...
Флагман Vivo X200s получил разогнанный Dimensity 9400 Plus и трио 50-Мп камер по цене от $575
Компания Vivo представила в Китае флагманский смартфон X200s, который получил новейший процессор MediaTek Dimensity 9400 Plus в улучшенной версии. Устройство позиционируется как один из самых мощных смартфонов, сочетающий высокую производительность, продвинутую систему камер и инновационные технологии связи. Источник изображений:...
Календарь релизов — 21–27 апреля: Tempest Rising, Clair Obscur: Expedition 33 и Steel Seed
У нас вышел свежий выпуск «Календаря релизов». В видеоролике мы рассказываем о том, во что поиграть на этой неделе, и отмечаем недавние релизы, которые вы могли
Boeing наращивает космический щит США: компания предложила X-37B и спутники Foo Fighter для проекта Пентагона Golden Dome
В рамках разработки перспективной системы противоракетной обороны Golden Dome подразделение Boeing Space Mission Systems выделило две ключевые разработки: многоразовый космический самолёт X-37B и спутниковую группировку для отслеживания ракет, создаваемую по программе Foo Fighter Агентства космического развития (SDA). Об этом заявила руководитель направления Мишель Паркер,...