- Apple инвестирует $1,5 млрд в Globalstar для... (346)
- Индия готовится к исторической миссии... (363)
- АвтоВАЗ собрал презентационные Lada Iskra в... (347)
- Корейцы натравят ИИ на пиратские кинотеатры... (354)
- Geely готовит конкурента Li Auto L9 и Aito... (382)
- Открыт метастабильный материал для будущих... (307)
- Новая реальность: успех S.T.A.L.K.E.R. 2:... (339)
- «Недостаточно слов, чтобы выразить... (306)
- ИИ научили генерировать тысячи модификаций... (294)
- В Epic Games Store стартовала новая раздача... (233)
- Новые открытия телескопа «Джеймс Уэбб»:... (276)
- На российском заводе Haval произошёл... (244)
- Новый год россияне встретят под «чёрной»... (254)
- За 2024 год в Steam вышло на 30 % больше... (257)
- 224 л.с., 8-ступенчатый «автомат» и полный... (219)
- Лампа накаливания снова в деле — физики... (229)
Amazon Cloud начала расследование в отношении Perplexity AI из-за подозрений в нарушении протокола исключения роботов
Дата: 2024-06-29 09:15
Amazon Cloud начала расследование в отношении стартапа Perplexity AI. Как стало известно WIRED (авторитетный источник информации о технологиях и науке), подозрение заключается в том, нарушает ли стартап правила Amazon Web Services, сканируя веб-сайты, которые пытались помешать ему это делать.
Представитель AWS подтвердил расследование компании в отношении Perplexity. Ранее WIRED обнаружил, что Perplexity, которая поддерживается семейным фондом Джеффа Безоса и Nvidia и недавно была оценена в $3 миллиарда, по-видимому, полагается на контент, полученный парсингом веб-сайтов, доступ к которым был запрещён через протокол исключения роботов, — распространённый веб-стандарт. Хотя протокол исключения роботов не является юридически обязательным, условия обслуживания, как правило, являются таковыми.
Протокол исключения роботов — это существующий уже несколько десятилетий веб-стандарт, который предполагает размещение в домене открытого текстового файла (например, wired.com/robots.txt), чтобы указать, какие страницы не должны быть доступны автоматическим ботам и сканерам. Хотя компании, использующие парсеры, могут игнорировать этот протокол, большинство из них традиционно соблюдают его. Представитель AWS заявил, что их клиенты AWS должны придерживаться стандарта robots.txt при сканировании веб-сайтов.
«Условия обслуживания AWS запрещают оскорбительные и незаконные действия, и наши клиенты несут ответственность за соблюдение этих условий. Мы регулярно получаем сообщения о предполагаемых злоупотреблениях из различных источников и привлекаем наших клиентов к разбору этих сообщений», — заявил представитель AWS.
Источник: Dennis Diatel / AlamyПроверка методов Perplexity последовала за отчётом Forbes от 11 июня, в котором стартап обвинялся в краже по крайней мере одной из своих статей. Расследования подтвердили эту практику и обнаружили дополнительные доказательства злоупотреблений системами, связанными с поисковым чат-ботом Perplexity на базе искусственного интеллекта. Инженеры Condé Nast, материнской компании WIRED, блокируют краулер (поисковый робот) Perplexity на всех своих веб-сайтах с помощью файла robots.txt. Но WIRED обнаружил, что у компании был доступ к серверу с неопубликованным IP-адресом — 44.221.181.252 — который посещал объекты Condé Nast по крайней мере сотни раз за последние три месяца, по-видимому, для сбора данных с веб-сайтов.
Похоже, что сервер, связанный с Perplexity, занимается широкомасштабным сканированием новостных веб-сайтов, которые запрещают ботам доступ к их контенту. Представители The Guardian, Forbes и The New York Times также заявили, что обнаружили IP-адрес, неоднократно посещавший их серверы. WIRED отследил IP-адрес до виртуальной машины Elastic Compute Cloud (EC2), размещённой на AWS.
Генеральный директор Perplexity Аравинд Сринивас первым отреагировал на расследование WIRED, заявив, что вопросы, которые задали компании, «отражают глубокое и фундаментальное непонимание того, как работают Perplexity и Интернет». Затем Сринивас сообщил, что IP-адрес, обнаруженный WIRED, сканировал веб-сайты Condé Nast, а созданный тестовый сайт управлялся сторонней компанией, которая предоставляет услуги веб-сканирования и индексирования. Он отказался назвать название компании, сославшись на соглашение о неразглашении. Когда его спросили, попросит ли он третье лицо прекратить сканировать WIRED, Сринивас ответил: «Это сложно».
Сара Платник, представитель Perplexity, сообщила, что компания ответила на запросы Amazon 26 июня и охарактеризовала расследование как стандартную процедуру. Платник говорит, что Perplexity не внесла никаких изменений в свою работу в ответ на опасения Amazon. Она добавила, что PerplexityBot будет игнорировать robots.txt, когда пользователь вводит определённый URL в запросе — случай использования, который Платник описывает как «очень редкий».
«Когда пользователь запрашивает определенный URL-адрес, это не запускает сканирование. Агент действует от имени пользователя, получая URL-адрес. Это работает так же, как если бы пользователь сам зашёл на страницу, скопировал текст статьи, а затем вставил его в Perplexity», — говорит Платник.
Это описание функциональности Perplexity подтверждает выводы WIRED о том, что чат-бот в некоторых случаях игнорирует robots.txt.
Digital Content Next (торговая ассоциация индустрии цифрового контента, членами которой являются The New York Times, The Washington Post и Condé Nast) в прошлом году организация поделилась проектом принципов управления генеративным ИИ для предотвращения потенциальных нарушений авторских прав. Генеральный директор Джейсон Кинт сообщил, что если обвинения против Perplexity справедливы, то компания нарушает многие из этих принципов.
«По умолчанию компании, занимающиеся искусственным интеллектом, должны исходить из того, что у них нет права брать и повторно использовать контент издателей без разрешения», — говорит Кинт. Если Perplexity нарушает условия обслуживания или обхода файла robots.txt, добавляет он, «то должен сработать сигнал тревоги о том, что происходит что-то ненадлежащее».
Подробнее на iXBT
Предыдущие новости
Audi интегрирует ChatGPT в свои автомобили — это расширит голосовое управление
Audi внедряет ChatGPT в свою информационно-развлекательную систему MIB3 для расширения возможностей голосового управления. С июля около двух миллионов автомобилей Audi, выпущенных с 2021 года, включая Audi A3, получат обновлённые функции. Новые модели, такие как Q6 e-tron, также будут оснащены ChatGPT. Источник изображения:...
Porsche отзывает все электромобили Taycan из-за проблем с передними тормозами
Компания Porsche объявила о глобальном отзыве всех проданных электромобилей Taycan из-за потенциальной неисправности передних тормозных шлангов. Отзыв затрагивает более 150 000 автомобилей по всему миру, включая новейшую модель 2025 года. Источник изображения:...
Qualcomm Snapdragon 8 Gen 4 совершит революцию? Платформа будет поддерживать суперсемплинг по типу DLSS
Интересными подробностями о будущей флагманской однокристальной системе Qualcomm Snapdragon 8 Gen 4 поделился известный инсайдер Digital Chat Station. Он сообщил, что в этой SoC появится поддержка технологии суперсемплинга по типу DLSS и FSR. По словам информатора, за счёт аналога DLSS смартфоны на Snapdragon 8 Gen 4 обеспечат кадровую частоту 120 к/с в Genshin Impact при...
Никаких новых материнских плат для новых процессоров AMD на старте продаж. Ryzen 9000X поступят в продажу 31 июля, а материнские платы на чипсетах AMD X870E и X870 — только в конце сентября
Ещё во время проведения выставки Computex 2024 появились слухи о том, что производители материнских плат не горят желанием выпускать новинки на новых топовых чипсетах AMD X870E и X870 одновременно с Ryzen 9000X (Granite Ridge), и вот сейчас данные подтвердились. Как сообщает WCCFTech, релиз топовых системных плат для Granite Ridge состоится лишь в конце сентября (30-го числа)...