За последние 24 часа нас посетил 20261 программист и 1605 роботов. Сейчас ищут 1886 программистов ...

Необходимо доработать парсер

Тема в разделе "PHP Free-Lance", создана пользователем Korsar13, 17 янв 2014.

  1. Korsar13

    Korsar13 Новичок

    С нами с:
    17 янв 2014
    Сообщения:
    1
    Симпатии:
    0
    Добрый день.
    Есть парсер на php, который делает следующее:
    1. При вводе сайта смотрит есть ли в вебархиве какие либо страницы
    2. Парсит все страницы и определяет дату последнего добавления в архив каждой страницы сайта
    3. Выводит списком ссылки на все сохраненные самые свежие страницы этого сайта

    То есть по факту у меня есть список ссылок на все самые свежие страницы сайта

    Что надо сделать:
    1. Добавить возможность сканировать только определенный год
    2. Есть много ссылок которые ведут по факту на страницу "Wayback Machine doesn't have that page archived." То есть ссылка есть, но сама страница не была сохранена в вебархиве. Надо сделать так, чтобы в итоговом списке ссылок эти ссылки не присутствовали.
    3. Сделать опцию с возможностью спарсить все страницы из пункта 2 и сохранить их в виде:
    а) статичного html-сайта (UTF-8) с сохранением URL. (html отдельно, картинки отдельно, css отдельно и т.д.)
    б) с возможностью экспорта в Wordpress с сохранением URL
    4. При этом все страницы должны быть очищены от "мусора": ссылок и кода самого вебархива, нерабочих ссылок на картинки и т.д.

    Предложения по стоимости прошу писать в личку.
    Спасибо.

    P.S. Может быть сформулировал задачу недостаточно четко, предлагаю обсудить детали в личке/письме