Люди помогите и подскажите как у vypileno спарсить цену товара и сроки. Я в браузере фаербагом теги страницы вижу все, а phpquery видит только шапку и футер страницы. PHP: $url = 'http://vypileno.ru'; $file = file_get_contents($url); echo $file;
Да, вы правы, есть официальные АПИ у поставщиков и они предоставляют их нам, но для этого нужно обращаться к сторонним ПХП разработчикам. Учитывая, что я владелец провинциального небольшого магазина запчастей, позволить себе держать в штате или обратится к сторонним программерам за разработкой подключения и поддержания оф. АПИ пока не имею возможности. Но имея базовые знания в ПХП написал для себя небольшой парсер который собирает цены всех моих поставщиков (8 шт.) на одной странице, чтобы мне не лазить по 8-ми сайтам поставщиков и сравнивать цены. Что плохого в этом? Парсер я не продаю, использую в личных целях, нагрузку на сайты не создаю. И с высказыванием "Парсерщики должны страдать." я не совсем согласен. Да и запрет обсуждение данной темы на форуме тоже глупость, может я конечно чего то не понимаю. Парсинг есть, и библиотеки для него есть и регулярные выражения так зачем стесняться его обсуждать? Это как... пердят все, НО в "светском" обществе об этом не принято говорить, типа никто не пердит )) Ладно, удаляй или закрывай тему. А правила прочту на будущее.
Наймите фрилансера, прикрутить API - не гору свернуть. Справится. Мы не стесняемся, все проще. Есть Вася. У Васи есть сайт. Вася кровью потеет, наполняя сайт контентом. Все руками обновляет, делает, собирает инфу и тд. Есть Петя. Петя хитрый. Петя не хочет потеть кровью. Петя парсит контент Васи и наживается на его трудах, плюя в потолок. Есть Гугл. Гугл, по несчастливой иронии, запросто может выдачу Пети сделать более релевантной, чем выдачу Васи. Особенно, если Петя хитрый и всячески продвигает себя, пока Вася потеет кровью. Как следствие, потеет Вася, а стрижет купоны Петя. Мы не стесняемся парсинга как явления. Мы не любим Петю. И хотим, чтобы Петь было как можно меньше.
@Fell-x27 А зачем Васи асинхронный контент который гугл не анализирует? Или это спрятанная статика? Иногда встречаю сайты на которых копирования запрещено js. Такая паранойя. Кому нужно тот все равно стащит.
Ебистественно. Только помогать ему в этом и упростить задачу - как-то западло... Тем более, что лично я как-то уже побывал в шкуре "Васи" и до боли знакома описанная ситуация @Fell-x27: P.S. Ошибочное предположение. Не буду говорить про остальные поисковики, но гугл кушает динамически подгружаемый контент аж со свистом. Проверено лично опытным путем, а два года назад - с двумя скептиками. А еще годом ранее, как оказалось, эксперимент провели другие ребята с положительным результатом (если кому нужно, то перевод статьи).
@Deonis Пробежался по быстрому нету там тестов для асинхронного кода (для данных которые подгружаются по api)
@nospiou, это далеко не первая дискуссия, где я принимаю участие в обсуждении этой темы и, честно говоря, уже устал подустал от повторяющихся ситуаций. Я буду только двумя руками "за", если вы сделаете свои тесты и поделитесь ими, т.к. для меня важнее реальное положение дел на этом фронте, а не держаться зубами за свою точку зрения.
Не в тех участвовал. Я уже много раз бросал ссылки на то как сейчас работает гугл. ajax ws он не дожидается. Ситуация с яндекс еще хуже.
Вкладочка network(Chrome) вам в помощь. Нужно ловить адреса запросов, и парсить уже их. Возможно, что потребуется знания регулярок. Ну либо обратиться к фрилансерам. --- Добавлено --- Мир жесток детка. Не надо быть таким Васей