За последние 24 часа нас посетил 20081 программист и 1653 робота. Сейчас ищут 1913 программистов ...

Отремонтировать парсер

Тема в разделе "PHP Free-Lance", создана пользователем dobrmir, 17 апр 2013.

  1. dobrmir

    dobrmir Активный пользователь

    С нами с:
    8 окт 2012
    Сообщения:
    200
    Симпатии:
    2
    Здравствуйте.
    Прикинте пожалуйста, можете ли Вы выполнить такую работу и сколько это будет стоить.
    У меня есть два одинаковых, немного измененных парсера. Один работает, другой не все делает, что должен. Надо отремонтировать второй парсер.
    Качают отсюда:
    http://www1.fips.ru/wps/portal/!ut/...RjZUNjNRNTcvTG1mX18zMjMvYWNOYW1lL3RyZWVCYWNr/
    Для первого надо перейти по ссылке и далее по ссылке:
    "Реестр изобретений" и в поле "Параметр" - "Индекс МПК" ввести код, например "F03G7/00", "F03G7/02", "F03G7/04", "F03G7/06" и далее похожие по возрастанию (бывают и нечетные номера). Парсер генерирует кода, сохраняет списки ссылок по разным кодам в отдельные файлы и закачивает в отдельные папки сами страницы (в коде парсера сделано также, чтобы качались и картинки, однако это и не нужно, так как с ними не удобно, они закачиваются потом другим скриптом). Там на сервере есть ограничение на число закачек в день, если привысить которое, можно попасть в бан на месяц, парсер, увидев предупреждение, останавливает закачку.
    Другой парсер закачивает из другого раздела. Это если перейти по ссылке выше и затем по ссылке "Реестр полезных моделей". Проблема в том, что он выкачивает только два раздела, то есть при примере выше выкачает "F03G7/02", "F03G7/04", а на "F03G7/06" остановится.
    Для обоих парсеров есть один общий файл, и по одному, который запускаю из браузера
    Оплата в вебмани без предоплаты, должен сходить, пополнить счет. Денег к сожалению много нету. Лучше пишите в личку.
     
  2. neverlose

    neverlose Активный пользователь

    С нами с:
    27 авг 2008
    Сообщения:
    1.112
    Симпатии:
    20
    Не проще ли парсить таким способом?

    Реестр изобретений:
    Код (Text):
    1. http://www1.fips.ru/fips_servl/fips_servlet?DB=RUPAT&DocNumber=%number%
    Реестр полезных моделей:
    Код (Text):
    1. http://www1.fips.ru/fips_servl/fips_servlet?DB=RUPM&DocNumber=%number%
    Вместо %number% подставляем число (можно делать перебор хоть от 1 до 1000000 или пока не выдастся предупреждение).

    А там уже определять категорию и сохранять куда и как нужно?

    Добавлено спустя 3 минуты 46 секунд:
    Если что, свой е-майл отправил вам в ЛС.