За последние 24 часа нас посетили 21402 программиста и 1690 роботов. Сейчас ищут 1990 программистов ...

Я уже не могу! Помогите! Простая регулярка!

Тема в разделе "Регулярные выражения", создана пользователем joost, 23 июл 2009.

  1. joost

    joost Guest

    Нет уже больше сил!
    2 дня уже мучаюсь.
    Есть сайт site.com
    Надо выдернуть все внутрении урлы.
    Допустим есть на странице урлы вида
    Код (Text):
    1. <a href=page.php>
    2. <a title=page href=page.php>
    3. <a href = page.php>
    4. <a href="page.php">
    5. <a href='page.php'>
    6. <a href=http://site.com/page.php>
    7. <a href=http://www.site.com/page.php>
    8. <a href=http://site.com/page.php target=_blank>
    надо выдернуть page.php
    делаю такую регулярку
    PHP:
    1. preg_match_all("/<a.*href ?= ?['\"]?(http:\/\/www.)?(.*)['\"]?\s|>/isU",$page,$urls);
    в ответ пусто
    ну что же не так сделал?
     
  2. sylex

    sylex Активный пользователь

    С нами с:
    9 ноя 2008
    Сообщения:
    625
    Симпатии:
    0
    Адрес:
    Омск
    joost
    ха ха, мучься дальше :)
     
  3. joost

    joost Guest

    sylex
    а по теме
    как решить проблему?
     
  4. Mr.M.I.T.

    Mr.M.I.T. Старожил

    С нами с:
    28 янв 2008
    Сообщения:
    4.586
    Симпатии:
    1
    Адрес:
    у тебя канфетка?
    что-то вроде
    Код (Text):
    1. #<a(?:[^>]*)href\s*=\s*(\'|\"|)(?!http:\/\/|www)((?(?<![\'\"])[^\s>]+|[^\\1]+))\\1(?:[^>]*)>#i