Делаю поисковик для местной сети Нужно заставить робот правильно вытаскивать ссылки 4ре проблеммы Абсолютные и относительные ссылки Адрес может быть и c доменном, и с IP Ссылка может быть на внешний ресурс Ссылка не на http ресурс или содержит java Ктонибудь реализовал,может уже есть готовый алгоритм,а то я так буду долго выбирать битые или не правильные ссылки зы предложения по проверке правильности ссылки через сокет отпадают, уж очень сильно тормозит работу сервера
http://php.ru/manual/function.preg-match-all.html Знакомство с регулярными выражениями Если после прочтения останутся вопросы - пишите.
я вообщето знаком с регулятивными выражениями.... просто исключений очень много, вот я и спрашивал может уже есть готовые
mr.Den В таком случае вам в Google регулярные Если знакомы - ни что не помешает вам написать собственное регулярное выражение, которое будет вытаскивать из контента ссылки (IP/http/ftp/etc).
помоему я писал про абсолютные и относительные ссылки :? гугл к сожалению ни чё полезного не посоветовал
вообщем, я выбираю из кода страниц текст который находится между "href=" и пробелом или ">" в зависимости что раньше примеры того что получается и из этого надо собрать ссылки 1. Только те что внутри данного домена или IP 2. Рабочие ссылки 3. Только http:// С последними двумя всё понятно
Давай по другому попробуем - напиши регулярку, которой ты это делаешь, а мы попробуем тебе подсказать, как её поправить, чтобы решить твою задачу.