Сопоставлении массивов — как ускорить?

mahmuzar · 26 ноя 2016

По какому критерию определяется какой именно вариант оставлять? Я этот момент не понял.

Poznakomlus · 26 ноя 2016

попробуйте заменить слова индексами и применить levenshtein

Fell-x27 · 26 ноя 2016

Chushkin сказал(а): ↑

использовать индексацию
Нажмите, чтобы раскрыть...

А это интересно..

Chushkin сказал(а): ↑

У меня те 35933 строки от ТС отрабатывает за 6.5 секунд, оставляя 26386
Нажмите, чтобы раскрыть...

Это вот не очень хороший показатель. Ты уверен, что оно не съедает лишнего? Проверь на контролируемых объемах, где однозначно видно все.

Poznakomlus сказал(а): ↑

Странно, что здесь не упомянули про diff
С помощью данных алгоритмов и следовало решать задачу, упростив алгоритм для сравнения слов
Нажмите, чтобы раскрыть...

В PHP есть нативная реализация подобных вещей, даже расстояния Левенштейна есть, пробовал всякое использовать, но на огромных объемах данных скорость очень сильно проседала, когда надо сравнить все со всем. Это посимвольные операции по факту. Бить словосочетания на слова и проверять схождение массивов оказалось более быстрым решением для данной ситуации. Там, скорее всего, используются какие-то оптимизации типа подсчета коротких хэшей значений.
--- Добавлено ---
В принципе, решение @Chushkin уже более, чем достаточное, но меня смущает количество "отбраковки", которое оно выдает.

Chushkin · 26 ноя 2016

Fell-x27 сказал(а): ↑

Это вот не очень хороший показатель.
Нажмите, чтобы раскрыть...

Что значит "не хороший"? А какой "хороший"?

Ты уверен, что оно не съедает лишнего?
Нажмите, чтобы раскрыть...

Не уверен, конечно. ТС не предоставил "правильный ответ".

Проверь на контролируемых объемах, где однозначно видно все.
Нажмите, чтобы раскрыть...

Какие проблемы? Функция есть, проверяйте. Потом расскажите, правильно работает или нет.
На той тысяче данных, результаты вашей функции и моей совпадают - оставляют 985 штук (если не запамятовал, в общем - одинаковое количество).

Fell-x27 · 26 ноя 2016

Я просто вот из чего исхожу:

Fell-x27 сказал(а): ↑

Взял из вашей выборки на обум пачку строк, оказалось, 2325. Обработал. Получил...2325 строк.
Нажмите, чтобы раскрыть...

Хотя, с другой стороны, у автора отсев на долгой дистанции был довольно большим.

starryknight сказал(а): ↑

26 тысяч осталось, около 9 отсеялось.
Нажмите, чтобы раскрыть...

И да, давно это я стал такой важной персоной, что ты ко мне на "вы" обращаться стал? Брось ты это дело
--- Добавлено ---

mahmuzar сказал(а): ↑

По какому критерию определяется какой именно вариант оставлять? Я этот момент не понял.
Нажмите, чтобы раскрыть...

Имеем две фразы. Если в одной из фраз есть все слова, входящие в другую, то эту "другую" выбрасываем. Если обе фразы идентичны, то выбрасываем любую их них. Или просто решаем этот момент через array_unique еще до начала обработки.

Сопоставлении массивов — как ускорить?

mahmuzar Старожил

Poznakomlus Активный пользователь

Fell-x27 Суперстар
Команда форума Модератор

Chushkin Активный пользователь

Fell-x27 Суперстар
Команда форума Модератор

Быстрый поиск

Сопоставлении массивов — как ускорить?

mahmuzar Старожил

Poznakomlus Активный пользователь

Fell-x27 Суперстар Команда форума Модератор

Chushkin Активный пользователь

Fell-x27 Суперстар Команда форума Модератор

Fell-x27 Суперстар
Команда форума Модератор

Fell-x27 Суперстар
Команда форума Модератор