Добро пожаловать на форум PHP программистов!
За последние 24 часа нас посетил 15891 программист и 1491 робот. Сейчас ищут 805 программистов ...
Последние
Популярные

Теневая сторона ИИ: в гигантской базе CommonPool для обучения популярных ИИ-генераторов изображений содержатся миллиарды образцов персональных данных

Дата: сегодня 14:06

Новое исследование выявило серьёзную проблему конфиденциальности в одном из крупнейших открытых наборов данных для обучения моделей генерации изображений — DataComp CommonPool. В этом наборе, содержащем на 2023 год 12,8 миллиардов образцов данных, обнаружены миллионы изображений паспортов, кредитных карт, свидетельств о рождении и других документов, содержащих персональную информацию (PII).

Исследование сосредоточилось на небольшой части (0,1%) данных. Даже в этой выборке были найдены тысячи изображений, включая распознаваемые лица и документы, удостоверяющие личность. Исходя из этого, учёные оценили общее количество изображений с PII в сотнях миллионов. В частности, было обнаружено более 800 подтверждённых документов о трудоустройстве (резюме и сопроводительные письма), многие из которых содержали конфиденциальную информацию, такую как данные о состоянии здоровья, результаты проверок биографических данных, даты рождения и места рождения иждивенцев. Связывание резюме с онлайн-профилями людей позволило исследователям получить доступ к контактной информации, государственным идентификаторам, социодемографическим данным, фотографиям лиц, домашним адресам и контактной информации других людей (например, рекомендателей).

Иллюстрация: Sora

Набор DataComp CommonPool, созданный как продолжение набора данных LAION-5B (использованного для обучения таких моделей, как Stable Diffusion и Midjourney), собирал данные путём веб-скрейпинга в период с 2014 по 2022 год. Хотя создатели CommonPool заявляли о его предназначении для академических исследований, лицензия не запрещала коммерческое использование. Учитывая, что набор данных был скачан более 2 миллионов раз за последние два года, и что источники данных CommonPool и LAION-5B схожи, вероятно, что аналогичная информация присутствует и в LAION-5B, а также в других моделях, обученных на тех же данных.

Авторы исследования отмечают, что автоматическое размытие лиц, применённое создателями CommonPool, оказалось неэффективным: алгоритм пропустил более 800 лиц в исследуемой выборке, что указывает на пропуск около 102 миллионов лиц во всём наборе данных. Кроме того, не применялись фильтры для распознавания текстовых строк PII, таких как адреса электронной почты или номера социального страхования. Хотя платформа Hugging Face, распространяющая CommonPool, предоставляет инструмент для удаления личной информации, это требует, чтобы люди знали о существовании своих данных в наборе.

Проблема усугубляется тем, что даже удаление данных из набора не гарантирует полной защиты конфиденциальности, если модель уже обучена на этих данных. Авторы исследования призывают сообщество специалистов по машинному обучению переосмыслить распространённую практику неконтролируемого веб-скрейпинга и указать на возможные нарушения действующих законов о защите данных, а также на ограничения возможностей этих законов в защите конфиденциальности. В частности, действующие законы о защите данных в Европе и Калифорнии не всегда распространяются на исследователей, создающих и курирующих такие наборы данных, а также содержат исключения для «общедоступной» информации.



Подробнее на iXBT
 

Предыдущие новости

3Dnews.ru, сегодня 14:18
Утечка подтвердила название новой Battlefield — официальный анонс Battlefield 6 совсем близко

Проверенный инсайдер Том Хендерсон (Tom Henderson) в эксклюзивном материале для портала Insider Gaming поделился закулисной информацией о планах Electronic Arts на продвижение следующей игры серии военных шутеров Battlefield. Источник изображения: Electronic...

iXBT, сегодня 13:59
Самый странный запуск новой машины в России? Lada Iskra уже у дилеров, но купить автомобиль нельзя, потому что объявлен отзыв

Инсайдеры паблика Avtograd сомневались в том, что прямо сегодня, 20 июля, в день официального старта продаж Lada Iskra, машину можно будет реально купить — и они, судя по всему, оказались правы. Как сообщает «Журнал Авито Авто», машины к дилерам поступили, но купить их нельзя, потому что… объявлена отзывная кампания. Причем с чем связан отзыв, дилеры не сообщают. В общем, это...

3Dnews.ru, сегодня 13:52
JBL выпустила Bluetooth-колонку Music Horizon 3 с функциями будильника и ночника

Компания JBL объявила о выходе в Китае беспроводной Bluetooth-колонки Music Horizon 3, которая также может использоваться в качестве будильника, FM-радио и ночника. Стоимость новинки — 1099 юаней ($153). Источник изображений:...

3Dnews.ru, сегодня 13:56
В Японии создадут человекоподобного робота-тяжеловеса для спасения людей

Японский производитель электроники Murata Manufacturing Co. и Университет Васэда объединились с несколькими местными компаниями для разработки человекоподобных поисково-спасательных роботов. Эта деятельность ведётся в рамках более масштабной программы, направленной на возрождение японского сектора робототехники, который в прошлом был ведущим в мире. Источник изображения:...

© 2025 «PHP.RU — Сообщество PHP-Программистов»
Главная | Форум | Реклама на сайте | Контакты VIP Сувениры
Разработка компании ODware