Backreference в первом параметре - pattern функции preg_repl

FiMka · 8 янв 2010

Ребята, привет всем!

Подскажите, пожалуйста, следующее:

Текст для обработки:

above{above} поверх{поверх=ADV=|поверх=PR=}
Нажмите, чтобы раскрыть...

Вопрос: возможно ли использование backreference в первом аргументе pattern функции preg_replace() (http://ru2.php.net/manual/en/function.preg-replace.php)?

Код (Text):

$tmp = preg_replace("/\\t(.+?)\\{$1=(ADV|CONJ)\\b.+?\\}/i", "\t$1($2)", $input);

Здесь bacreference $1 используется в первом параметре. На практике вижу, что, похоже, так нельзя. Так как в сети пока подтверждения не нашел, решил спросить у знатоков.

Mr.M.I.T. · 8 янв 2010

либо кавычки одинакрные поставь, либо пиши так
\\1

FiMka · 8 янв 2010

Mr.M.I.T. сказал(а):

либо кавычки одинарные поставь, либо пиши так
\\1
Нажмите, чтобы раскрыть...

Все равно не цепляет по регэкспу...

above{above} поверх{поверх=ADV=|поверх=PR=}
Нажмите, чтобы раскрыть...

Код (Text):

<?php

if( isset( $_FILES["qwe"] ) ) {

$dictext = file_get_contents($_FILES["qwe"]["tmp_name"], FILE_TEXT);

if( ! empty($dictext) ) {

$tmp_ = $dictext;

$tmp_ = preg_replace('/(?<=\\t)(.+?)\\{.*?\\1=(A|ADV|CONJ)\\b[^{]+?\\}/', "$1($2)", $tmp_);

echo $tmp_;

}

} else {

echo "Не указан файл!";

}

?>

Mr.M.I.T. · 8 янв 2010

Код (Text):

preg_replace("#(?<=\t|^)(.+?){(\\1(?:=(A|ADV|CONJ)=)?\|?)+}#","\\1(\\3)",$text);

FiMka · 8 янв 2010

Mr.M.I.T. сказал(а):

Код (Text):

preg_replace("#(?<=\t|^)(.+?){(\\1(?:=(A|ADV|CONJ)=)?\|?)+}#","\\1(\\3)",$text);

Нажмите, чтобы раскрыть...

Mr.M.I.T., спасибо за помощь! Но все же и этот вариант не прокатывает.

Код (Text):

if( isset( $_FILES["qwe"] ) ) {

$dictext = file_get_contents($_FILES["qwe"]["tmp_name"], FILE_TEXT);

if( ! empty($dictext) ) {

$text = "above{above} поверх{поверх=ADV=|поверх=PR=}";

$text = preg_replace("#(?<=\t|^)(.+?){(\\1(?:=(A|ADV|CONJ)=)?\|?)+}#","\\1(\\3)", $text);

echo $text; // вывод: "above() поверх{поверх=ADV=|поверх=PR=}"

}

Главное узнал, что bacreference возможен в pattern для preg_replace!

Я вообще пользую конструктор RegexBuddy для отладки регулярных выражений (http://www.regexbuddy.com/), проверял в этот раз и другими конструкторами (напр. http://www.pcre.ru/eval/). Все работало согласно задумке, но в php какая-то заминка...

FiMka · 8 янв 2010

Похоже, что изначальная проблема с которой я начал описание в теме, связана с исходным файлом, загружаемым на парсинг. Если задаю текст для обработки в файле .php, то все ок, если загрузка из файла (пробовал и с utf-8 файлом и с ansi - результат тот же), скрипт не выводит ничего...

Simpliest · 8 янв 2010

Если с файлом, то попробуй убрать вот это

FiMka сказал(а):

FILE_TEXT
Нажмите, чтобы раскрыть...

FiMka · 8 янв 2010

Simpliest сказал(а):

Если с файлом, то попробуй убрать вот это

FiMka сказал(а):

FILE_TEXT
Нажмите, чтобы раскрыть...

Нажмите, чтобы раскрыть...

Короче, не хочу забегать вперед, но, кажется, приближаюсь к разгадке. Загружаемый текстовый файл довольно крупный (~1,5 Мб) с большим количеством разнообразного текста. Похоже, preg_replace спотыкается на каком-то фрагменте в файле (возвращает NULL), в итоге скрипт выдавал пустышку. Сейчас урезал файл до первых нескольких строк - все нормально, пропарсилось! Осталось разобраться в чем же на самом деле была проблема. Как найду в чем было дело, опишусь

Кстати, вопрос к знатокам: в каких случаях preg_replace может вернуть NULL?

ru2.php.net отписались лишь вскользь:

ru2.php.net сказал(а):

If matches are found, the new subject will be returned, otherwise subject will be returned unchanged or NULL if an error occurred.
Нажмите, чтобы раскрыть...

FiMka · 8 янв 2010

FiMka сказал(а):

Кстати, вопрос к знатокам: в каких случаях preg_replace может вернуть NULL?

ru2.php.net отписались лишь вскользь:

ru2.php.net сказал(а):

If matches are found, the new subject will be returned, otherwise subject will be returned unchanged or NULL if an error occurred.
Нажмите, чтобы раскрыть...

Нажмите, чтобы раскрыть...

Кажется вот:

As a pertinent note, there's an issue with this function where parsing any string longer than 94326 characters long will silently return null. So be careful where you use it at.
Нажмите, чтобы раскрыть...

Блин...

Simpliest · 8 янв 2010

Мгм...
Это не может помочь?
http://ua2.php.net/manual/en/pcre.confi ... rack-limit

FiMka · 8 янв 2010

Simpliest сказал(а):

Мгм...
Это не может помочь?
http://ua2.php.net/manual/en/pcre.confi ... rack-limit
Нажмите, чтобы раскрыть...

Ну у меня вообще-то pcre.recursion_limit и pcre.backtrack_limit были закомментированы в php.ini.
Раскомментировал, поставил лимиты в 900 000, запустил скрипт, он подгрузил процессор на 50%, но так за минуту ни до чего и не додумался.
В обрабатываемом файле знаков с пробелами: 897 243.
Также напрягают вот такие комментарии:

ua2.php.net сказал(а):

PCRE's recursion limit. Please note that if you set this value to a high number you may consume all the available process stack and eventually crash PHP (due to reaching the stack size limit imposed by the Operating System).
Нажмите, чтобы раскрыть...

Мдаа.. непонятно чо делать. Наверное стоит кусками файлы читать.

Simpliest · 8 янв 2010

Что я могу посоветовать. Простая регулярка кушает и 10мб файл при стандартном
pcre.backtrack_limit = 100000

Если тестируешь локально - то увеличивай на сколько сможешь. (10/20/100млн)
только память выдели для PHP соответственно.

FiMka сказал(а):

обрабатываемом файле знаков с пробелами: 897 243.
Нажмите, чтобы раскрыть...

Там не только число знаков в строке важно, а сколько вариантов конечных автоматов может построится строится как я понимаю.

Т.е. для большого текста и скажем (.*)+ это число очень быстро растет в геометрической прогрессии.

Попробуй переделать регулярку на более конкретный поиск.

P.S. Настройки рекурсии, кстати пока лучше не трогай, ты только ухудшаешь себе задачу.

FiMka · 8 янв 2010

Simpliest сказал(а):

Что я могу посоветовать. Простая регулярка кушает и 10мб файл при стандартном
pcre.backtrack_limit = 100000

Если тестируешь локально - то увеличивай на сколько сможешь. (10/20/100млн)
только память выдели для PHP соответственно.

FiMka сказал(а):

обрабатываемом файле знаков с пробелами: 897 243.
Нажмите, чтобы раскрыть...

Там не только число знаков в строке важно, а сколько вариантов конечных автоматов может построится строится как я понимаю.

Т.е. для большого текста и скажем (.*)+ это число очень быстро растет в геометрической прогрессии.
Нажмите, чтобы раскрыть...

Согласен, большое спасибо за помощь!

Simpliest сказал(а):

Попробуй переделать регулярку на более конкретный поиск.
Нажмите, чтобы раскрыть...

Да я бы рад уточнить, сам не люблю всяких .* .+ и прочего, одни проблемы начинаются, но в файле чего только нет. Видимо, придется кусками обрабатывать. Подумаю, конечно, еще, что можно уточнить в регулярке.

Еще раз спасибо всем!

FiMka · 9 янв 2010

Короче, ребята, все получилось с Perl. С вышеуказанной регуляркой и текстовым файлом объема 1,5 Мб скрипт выполнился за менее чем три секунды!

Вчера до трех утра сидел никак не мог скурить почему и в Perl не работает.
Сегодня догадался - указал в явном виде кодировку и все!

Код (Text):

use locale;

use POSIX;

&POSIX::setlocale(&POSIX::LC_ALL, "Russian_Russia.866");

Backreference в первом параметре - pattern функции preg_repl

FiMka Активный пользователь

Mr.M.I.T. Старожил

FiMka Активный пользователь

Mr.M.I.T. Старожил

FiMka Активный пользователь

FiMka Активный пользователь

Simpliest Активный пользователь

FiMka Активный пользователь

FiMka Активный пользователь

Simpliest Активный пользователь

FiMka Активный пользователь

Simpliest Активный пользователь

FiMka Активный пользователь

FiMka Активный пользователь

Быстрый поиск

Backreference в первом параметре - pattern функции preg_repl

FiMka Активный пользователь

Mr.M.I.T. Старожил

FiMka Активный пользователь

Mr.M.I.T. Старожил

FiMka Активный пользователь

FiMka Активный пользователь

Simpliest Активный пользователь

FiMka Активный пользователь

FiMka Активный пользователь

Simpliest Активный пользователь

FiMka Активный пользователь

Simpliest Активный пользователь

FiMka Активный пользователь

FiMka Активный пользователь