Фильтр, замена слов

VLK · 4 июн 2014

Мне надо сделать фильтр, который за место заданных слов будет вставлять допустим CENSORED, в принципе ни чего сложного, выглядит это примерно как то так:

Код (PHP):

function words_filter($content) {

$regexp = ' .... '; // регулярное выражение с перечнем

return preg_replace($regexp, 'CENSORED',$content);

}

вопрос к знатокам, если этот список будет слишком большой, как это будет сказываться на производительности?

К примеру по мимо неприличных слов там будет перечень запрещенных сайтов (говорят закон вступил в силу что за ссылки на запрещенные сайты (торренты там..), будут блокировать и твой сайт).

Допустим если регулярное выражение будет где то на 1 мб.

Dmitriy A. Arteshuk · 4 июн 2014

VLK сказал(а):

Допустим если регулярное выражение будет где то на 1 мб.
Нажмите, чтобы раскрыть...

по сабжу ничего сказать не могу, но на метр регулярки я бы посмотрел )

VLK · 4 июн 2014

речь не идет что я буду сидеть и писать выражение длинною в 1 мб, допустим с определенного сайта (роскомнадзор или как там) будет автоматически браться информация о запрещенными сайтами и добавлять в выражение, ссылки нынче длинные, сайтов много, я думаю наберется и больше чем на 1 мб.

Я в регулярных выражениях не шарую, можете написать регулярное выражение на замену допустим URL, по тематике такое или такое, я расширю до 1 мб и затестирую

igordata · 5 июн 2014

а че, кроме регулярок ничего не знаем больше? =)

VLK · 5 июн 2014

igordata сказал(а):

а че, кроме регулярок ничего не знаем больше? =)
Нажмите, чтобы раскрыть...

нет к сожалению, а что еще?
или как говорили студенты-наркоманы, а че есть че?

короче preg_replace отказывается работать:

Код (PHP):

$str = ' ... '; // тут много текста

$data = file_get_contents('reg.txt'); // тут все нормально, контент получаем

$reg = '~(?:'.$data.')~ixu'; // тут тоже все нормально

// примерно такой вид: '~(?:test_0.ru|test_1.ru|test_2.ru)~ixu'

// только этих тестов до 100 000 штук..

$new_str = preg_replace($reg, 'WORK!', $str);

// результат - $new_str пустая переменная

igordata · 5 июн 2014

чувак. загугли замену слов в строке.

VLK · 5 июн 2014

str_replace что ли? мне казалось регулярным выражением и preg_replace проще и быстрее или это не так?

artoodetoo · 5 июн 2014

аргументируй как замена по регулярке может быть "проще и быстрей", чем буквальная замена подстроки. прямо заинтриговал.

VLK · 5 июн 2014

artoodetoo сказал(а):

аргументируй как замена по регулярке может быть "проще и быстрей", чем буквальная замена подстроки. прямо заинтриговал.
Нажмите, чтобы раскрыть...

не знаю, я так думал

Fell-x27 · 5 июн 2014

VLK сказал(а):

не знаю, я так думал
Нажмите, чтобы раскрыть...

Думать надо меньше, больше надо искать Почитай документацию пыха по регуляркам. Там они отдельно пишут, что, если задача тривиальная, то лучше использовать нативные строковые функции, нежели регекспы раскочегаривать.

igordata · 5 июн 2014

VLK сказал(а):

artoodetoo сказал(а):

аргументируй как замена по регулярке может быть "проще и быстрей", чем буквальная замена подстроки. прямо заинтриговал.
Нажмите, чтобы раскрыть...

не знаю, я так думал
Нажмите, чтобы раскрыть...

Ну по всей видимости ты так НЕ думал.
Еще печальнее, что очень много таких. Почему ты думал, что создать сложную регулярку которая еще и будет парситься хитрым образом быстрее, чем просто скормить массив слов? Ты врушка. Ты вообще не знал про str_replace

VLK · 5 июн 2014

Че то не работает, не заменяет, подскажите в чем косяк:

Код (PHP):

$str = 'one test_40.ru two';

$lines = file('data.txt'); // в файле присутствует в том числе test_40.ru

// полученный массив имеет вид: [0] => 'test_0.ru', [1] => 'test_1.ru' и т.д.

// с массивом все в порядке, он есть, проверено

$str = str_replace( $lines,'[!WORK!]',$str);

echo "<p>{$str}</p>"; // выводит 'one test_40.ru two', а должно 'one [!WORK!] two'

оба файла UTF-8

igordata · 5 июн 2014

должно работать. попробуй ручками =) и проверь хоть что-нибудь =)

VLK · 5 июн 2014

igordata сказал(а):

попробуй ручками =)
Нажмите, чтобы раскрыть...

попробовать что?
работать должно, но что то не работает.

igordata · 5 июн 2014

ну для начала попробуй подумать, как проверить, что оно работает. для начала проверь, что сама функция работает. потом проверь что файл читается в массив и он массив =)

Добавлено спустя 24 секунды:
чета делать надо, чувак
нельзя ж просто так сидеть и говорить "ебать, нифига не пашет"

VLK · 5 июн 2014

igordata сказал(а):

ну для начала попробуй подумать, как проверить, что оно работает. для начала проверь, что сама функция работает. потом проверь что файл читается в массив и он массив =)
Нажмите, чтобы раскрыть...

ну я проверил, то что у меня попало в $lines я вывел, это массив, если $lines засунуть в var_export то пишет

Код (Text):

array ( 0 => 'test_0.ru ', 1 => 'test_1.ru ', 2 => 'test_2.ru ', 3 => 'test_3.ru, ... )

если в var_export засунуть $lines[0] выводит test_0.ru

куда дальше то рыть? вроде все ок.

igordata · 5 июн 2014

Чудеса!

Хыиуду · 5 июн 2014

Надо бы сделать trim, чтобы из lines убрать лишние пробелы, переводы строки и прочую чушь.

dapperkop · 5 июн 2014

http://php.ru/manual/function.file.html

Возвращает файл в виде массива. Каждый элемент массива соответствует строке файла, с символами новой строки включительно. В случае ошибки file() возвращает FALSE.
Нажмите, чтобы раскрыть...

http://php.ru/manual/function.str-replace.html

Эта функция возвращает строку или массив с замененными значениями.
Нажмите, чтобы раскрыть...

Попробуй сравнить кодировки $search и $subject.

VLK · 5 июн 2014

Выискал в интернете, надо писать:

Код (PHP):

$lines = file('data.txt', FILE_IGNORE_NEW_LINES);

Мне помогло.

dapperkop · 5 июн 2014

VLK сказал(а):

Мне помогло.
Нажмите, чтобы раскрыть...

Ну хз... Помогло и слава богу))

VLK · 5 июн 2014

кого интересуют результаты моих происков:
массив из 1 000 000 элементов ($search), текст около 10 000 символов (присутствует всего 1 вхождение) ($subject)

по времени выполнения ( microtime(true) ) - от 0.15 до 0.2
сколько использует памяти думаю нет смысла писать, т.к. я толком не въезжаю как эта функция работает, а оно у меня показывает всегда одно и то же значение.
Это НЕ локальный сервер, а хостинг, причем не самый лучший.

PS это нормально результат?

igordata · 6 июн 2014

Элементов много

Фильтр, замена слов

VLK Старожил

Dmitriy A. Arteshuk Активный пользователь

VLK Старожил

igordata Суперстар
Команда форума Модератор

VLK Старожил

igordata Суперстар
Команда форума Модератор

VLK Старожил

artoodetoo Суперстар
Команда форума Модератор

VLK Старожил

Fell-x27 Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

VLK Старожил

igordata Суперстар
Команда форума Модератор

VLK Старожил

igordata Суперстар
Команда форума Модератор

VLK Старожил

igordata Суперстар
Команда форума Модератор

Хыиуду Активный пользователь

dapperkop Активный пользователь

VLK Старожил

dapperkop Активный пользователь

VLK Старожил

igordata Суперстар
Команда форума Модератор

Быстрый поиск

Фильтр, замена слов

VLK Старожил

Dmitriy A. Arteshuk Активный пользователь

VLK Старожил

igordata Суперстар Команда форума Модератор

VLK Старожил

igordata Суперстар Команда форума Модератор

VLK Старожил

artoodetoo Суперстар Команда форума Модератор

VLK Старожил

Fell-x27 Суперстар Команда форума Модератор

igordata Суперстар Команда форума Модератор

VLK Старожил

igordata Суперстар Команда форума Модератор

VLK Старожил

igordata Суперстар Команда форума Модератор

VLK Старожил

igordata Суперстар Команда форума Модератор

Хыиуду Активный пользователь

dapperkop Активный пользователь

VLK Старожил

dapperkop Активный пользователь

VLK Старожил

igordata Суперстар Команда форума Модератор

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

artoodetoo Суперстар
Команда форума Модератор

Fell-x27 Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор