За последние 24 часа нас посетили 20027 программистов и 1626 роботов. Сейчас ищет 1821 программист ...

помоготе разобраться регулярным выражением

Тема в разделе "Регулярные выражения", создана пользователем melokgroup, 26 дек 2010.

  1. melokgroup

    melokgroup Активный пользователь

    С нами с:
    26 дек 2010
    Сообщения:
    2
    Симпатии:
    0
    Суть проблемы:
    есть регулярное выражение поиска ссылки на другом сайте, на всех сайтах работает, на одном нет.
    Задача создать регулярное выражение, поиска ссылки на нужный сайт с проверкой на возможность индексации ПС

    $page=file_get_contents('http://domtekstil.at.ua/dir/tovary_i_uslugi/cfera_uslug/kosmetika/186-1-0-53');
    //$page=file_get_contents('http://5ka.at.ua/index/obmin_posilannjami/0-11'); - тут работает нормально
    function search_link($page,$domen){
    $domen=ereg_replace("/", "\/", $domen);
    preg_match_all("/((<noindex\>.*|<\!--.*|<script.*)?(<a.*?href=(\"|\')(http:|htps:)\/\/(www.)?(".$domen.")(.*?)(\"|\')*.?>)(.*?)<\/a>)/i", $page,$matches,PREG_SET_ORDER);
    return $matches;
    }
    echo "<pre>";
    var_dump(search_link($page,'aasha.melok.biz'));
    echo "</pre>";

    То есть задача не просто найти ссылку, но и проверить открыта он к индексации ()наличие предшествования открытого тега noindex, script и ХТМЛ комментирования.

    Заранее благодарен за толковые советы и подсказки
     
  2. Dima4321

    Dima4321 Активный пользователь

    С нами с:
    1 апр 2009
    Сообщения:
    683
    Симпатии:
    0
    Давай сам текст html который спарсен и где есть ссылки такого вида.
     
  3. melokgroup

    melokgroup Активный пользователь

    С нами с:
    26 дек 2010
    Сообщения:
    2
    Симпатии:
    0
    Dima4321, спасибо за желание помочь, нашел в чем причина - слишком длинная строка, решил проблему путем разбивания ее на мелкие.