Не получается спарсить страницу

TigerZaka · 8 дек 2013

Всем привет!
Использую simple_html_dom
Не получается вытянуть информацию со страницы:

Код (Text):

<div class="content">

<h1>Заголовок</h1>

<p class="update">дата публикации</p>

<div class="picta">Изображение</div>

<p>параграф-1</p>

<p>параграф-2</p>

<p>параграф-N</p>

<div class="clear"></div>

<p class="jj"><strong>Ссылка на источник</strong></p>

<h3 class="nl">....</h3>

<div class="info">...</div>

<script type="text/javascript">...</script>

<div class="pages clearfix">

<div class="title">...</div>

<div class="prev">

<div class="arm">←</div>

<div class="link"><a href="#">...</a></div>

</div>

<div class="next">

<div class="arm">→</div>

<div class="link"><a href="#">...</a></div>

</div>

<div class="clear"></div>

</div>

</div>

Код (Text):

$html = file_get_html ( 'link' );

foreach ( $html->find ( '.content' ) as $article ) {

$item ['title'] = $article->find ( 'h1', 0 )->plaintext;

$item ['author'] = $article->find ( '.jj', 0 )->plaintext;

$articles [] = $item;

}

Нужно вытащить только: заголовок, параграфы (количество может быть разное) и ссылку на источник.
Подскажите, как зацепить параграфы, регулярки или так же с помощью simple_html_dom?
Я так понимаю, тут несколько этапов будет?

Dmitriy427 · 8 дек 2013

Код (Text):

foreach ( $html->find( '.content' ) as $article ) {

foreach ( $article->find( 'p' ) as $p ) {

if ( ! $p->class ) $item['paragraph'][] = $p->plaintext;

}

}

TigerZaka · 9 дек 2013

Спасибо! То, что надо

Не получается спарсить страницу

TigerZaka Активный пользователь

Dmitriy427 Новичок

TigerZaka Активный пользователь

Быстрый поиск

Не получается спарсить страницу

TigerZaka Активный пользователь

Dmitriy427 Новичок

TigerZaka Активный пользователь