За последние 24 часа нас посетили 30574 программиста и 1813 роботов. Сейчас ищут 845 программистов ...

Поиск ссылок на страницах

Тема в разделе "PHP для новичков", создана пользователем mr.Den, 3 апр 2008.

  1. mr.Den

    mr.Den Активный пользователь

    С нами с:
    11 янв 2008
    Сообщения:
    29
    Симпатии:
    0
    Адрес:
    Саранск
    Делаю поисковик для местной сети
    Нужно заставить робот правильно вытаскивать ссылки
    4ре проблеммы
    • Абсолютные и относительные ссылки
      Адрес может быть и c доменном, и с IP
      Ссылка может быть на внешний ресурс
      Ссылка не на http ресурс или содержит java

    Ктонибудь реализовал,может уже есть готовый алгоритм,а то я так буду долго выбирать битые или не правильные ссылки

    зы предложения по проверке правильности ссылки через сокет отпадают, уж очень сильно тормозит работу сервера
     
  2. Elkaz

    Elkaz Старожил
    Команда форума Модератор

    С нами с:
    26 июн 2006
    Сообщения:
    3.373
    Симпатии:
    0
    Адрес:
    Баку, Азербайджан
  3. mr.Den

    mr.Den Активный пользователь

    С нами с:
    11 янв 2008
    Сообщения:
    29
    Симпатии:
    0
    Адрес:
    Саранск
    я вообщето знаком с регулятивными выражениями.... просто исключений очень много, вот я и спрашивал может уже есть готовые
     
  4. Elkaz

    Elkaz Старожил
    Команда форума Модератор

    С нами с:
    26 июн 2006
    Сообщения:
    3.373
    Симпатии:
    0
    Адрес:
    Баку, Азербайджан
    mr.Den
    В таком случае вам в Google
    регулярные
    Если знакомы - ни что не помешает вам написать собственное регулярное выражение, которое будет вытаскивать из контента ссылки (IP/http/ftp/etc).
     
  5. host

    host Активный пользователь

    С нами с:
    20 июн 2007
    Сообщения:
    733
    Симпатии:
    3
    правда ?
     
  6. mr.Den

    mr.Den Активный пользователь

    С нами с:
    11 янв 2008
    Сообщения:
    29
    Симпатии:
    0
    Адрес:
    Саранск
    помоему я писал про абсолютные и относительные ссылки :?
    гугл к сожалению ни чё полезного не посоветовал
     
  7. Anonymous

    Anonymous Guest

    Ладно. Напиши определение, что такое ссылка. Русским языком.
     
  8. mr.Den

    mr.Den Активный пользователь

    С нами с:
    11 янв 2008
    Сообщения:
    29
    Симпатии:
    0
    Адрес:
    Саранск
    :D
    вообщем, я выбираю из кода страниц текст который находится между "href=" и пробелом или ">" в зависимости что раньше
    примеры того что получается
    и из этого надо собрать ссылки
    1. Только те что внутри данного домена или IP
    2. Рабочие ссылки
    3. Только http://
    С последними двумя всё понятно
     
  9. RomanBush

    RomanBush Активный пользователь

    С нами с:
    5 дек 2007
    Сообщения:
    798
    Симпатии:
    0
    Адрес:
    200 км от Москвы
    Давай по другому попробуем - напиши регулярку, которой ты это делаешь, а мы попробуем тебе подсказать, как её поправить, чтобы решить твою задачу.