Необходимо доработать парсер

Korsar13 · 17 янв 2014

Добрый день.
Есть парсер на php, который делает следующее:
1. При вводе сайта смотрит есть ли в вебархиве какие либо страницы
2. Парсит все страницы и определяет дату последнего добавления в архив каждой страницы сайта
3. Выводит списком ссылки на все сохраненные самые свежие страницы этого сайта

То есть по факту у меня есть список ссылок на все самые свежие страницы сайта

Что надо сделать:
1. Добавить возможность сканировать только определенный год
2. Есть много ссылок которые ведут по факту на страницу "Wayback Machine doesn't have that page archived." То есть ссылка есть, но сама страница не была сохранена в вебархиве. Надо сделать так, чтобы в итоговом списке ссылок эти ссылки не присутствовали.
3. Сделать опцию с возможностью спарсить все страницы из пункта 2 и сохранить их в виде:
а) статичного html-сайта (UTF-8) с сохранением URL. (html отдельно, картинки отдельно, css отдельно и т.д.)
б) с возможностью экспорта в Wordpress с сохранением URL
4. При этом все страницы должны быть очищены от "мусора": ссылок и кода самого вебархива, нерабочих ссылок на картинки и т.д.

Предложения по стоимости прошу писать в личку.
Спасибо.

P.S. Может быть сформулировал задачу недостаточно четко, предлагаю обсудить детали в личке/письме

Быстрый поиск

Необходимо доработать парсер

Korsar13 Новичок