MATCH и AGAINST

Azrarn · 14 июн 2008

Здравствуйте.
Появилась проблема - нужно искать в БД одинаковые записи, ну и помечать каким то образом. Пробовал различные способы. Самым удобным было использование similar_text() в php, оно же и самое медленное. По скорости устраивает использование MATCH\AGAINST, но не могу понять, как используя их определить степень похожести двух строк? Если similar_text() возвращает похожесть в процентах - 100% идентичные строки, то MATCH\AGAINST возвращает совершенно невнятные ответы. Единственное что там можно понять если сравнивать одну строку с несколькими то самую похожую, но на сколько они похожи - непонятно.
Подскажите пожалуйста, как их правильно интерпретировать, что бы определить похожесть строк по какой то фиксированной шкале? Надеюсь это вообще в принципе возможно?
Спасибо.

Kreker · 14 июн 2008

Матч возвращает массив отсортированный в порядке релевантности. Поиск осуществляется в полях с полностекстовым поиском. По желанию, можно тоже вернуть % релевантности.
http://phpclub.ru/mysql/doc/fulltext-search.html

Azrarn · 15 июн 2008

Извините, а как вернуть именно процент?
В примере который в ссылке есть такое:
+----+-------------------------------------+-----------------+
| id | body | score |
+----+-------------------------------------+-----------------+
| 4 | 1. Never run mysqld as root. 2. ... | 1.5055546709332 |
| 6 | When configured properly, MySQL ... | 1.31140957288 |
+----+-------------------------------------+-----------------+
Извиняюсь что таблица поехала.
Так вот 1.5 и 1.3 это и есть процент? Не похоже что то. У меня и за несколько тысяч вроде зашкаливало, при сравнении больших строк. Или я что то путаю. Завтра еще раз проверю.

Kreker · 15 июн 2008

Azrarn
Да, да, вы правы насчет этого. Это не процент.
Как получить % - не знаю, возможно по какой-то формуле. Для этого надо понаблюдать за результатами.

EugeneTM · 15 июн 2008

Kreker сказал(а):

Azrarn
Да, да, вы правы насчет этого. Это не процент.
Как получить % - не знаю, возможно по какой-то формуле. Для этого надо понаблюдать за результатами.
Нажмите, чтобы раскрыть...

А может лучше сначала мануал почитать?

Каждое правильное слово в наборе проверяемых текстов и в данном запросе оценивается в соответствии с его важностью в этом запросе или наборе текстов. Таким образом, слово, присутствующее во многих документах, будет иметь меньший вес (и даже, возможно, нулевой), как имеющее более низкое смысловое значение в данном конкретном наборе текстов. С другой стороны, редко встречающееся слово получит более высокий вес. Затем полученные значения весов слов объединяются для вычисления релевантности данной строки столбца.
Нажмите, чтобы раскрыть...

А вообще не понял в чем проблема?

UPDATE bla, blabla SET bla.metka = 1 WHERE bla.stri = blabla.stri;
Ну и ндекс в blabla и bla по stri должен быть.

Kreker · 15 июн 2008

EugeneTM сказал(а):

А может лучше сначала мануал почитать?
Нажмите, чтобы раскрыть...

Предложения по поводу перевода в %?

EugeneTM · 15 июн 2008

Kreker сказал(а):

EugeneTM сказал(а):

А может лучше сначала мануал почитать?
Нажмите, чтобы раскрыть...

Предложения по поводу перевода в %?
Нажмите, чтобы раскрыть...

Залезть в исходники FULLTEXT INDEX и подкрутить как нада.
Там всего кил 300 C'ишного кода.

EugeneTM · 15 июн 2008

А если по серьезному дождатся пока в sphinx ввинтят "realtime" обновления.
http://www.sphinxsearch.com/

Вроде уже скоро.
http://habrahabr.ru/blog/webdev/40473.html#comments

И забыть как страшный сон FULLTEXT INDEX.

Azrarn · 15 июн 2008

Sphinx я тоже использую, меня то сейчас интересует именно нахождение дублей, причем не 100% разумеется, это не сложно. Sphinx такое тоже не позволяет сделать, я на тамошнем форуме интересовался.

Так значит никто не знает?

EugeneTM · 15 июн 2008

Azrarn сказал(а):

Sphinx я тоже использую, меня то сейчас интересует именно нахождение дублей, причем не 100% разумеется, это не сложно. Sphinx такое тоже не позволяет сделать, я на тамошнем форуме интересовался.

Так значит никто не знает?
Нажмите, чтобы раскрыть...

Если я правильно по буржуйски понял, то булевый режим тебе нужен. Частотные характеристики он игнорирует.
http://www.sphinxsearch.com/doc.html#matching-modes

или с SetFieldWeights играться
http://www.sphinxsearch.com/doc.html#ap ... eldweights

возможно и то и другое одновременно.

Смотреть при каких установках будет выдавать нужный результат.
The weights must be positive 32-bit integers. The final weight will be a 32-bit integer too. Default weight value is 1.

4.4. Weighting
Specific weighting function (currently) depends on the search mode.

There are these major parts which are used in the weighting functions:

phrase rank,
statistical rank.

Phrase rank is based on a length of longest common subsequence (LCS) of search words between document body and query phrase. So if there's a perfect phrase match in some document then its phrase rank would be the highest possible, and equal to query words count.

Statistical rank is based on classic BM25 function which only takes word frequencies into account. If the word is rare in the whole database (ie. low frequency over document collection) or mentioned a lot in specific document (ie. high frequency over matching document), it receives more weight. Final BM25 weight is a floating point number between 0 and 1.

In all modes, per-field weighted phrase ranks are computed as a product of LCS multiplied by per-field weight speficifed by user. Per-field weights are integer, default to 1, and can not be set lower than 1.

In SPH_MATCH_BOOLEAN mode, no weighting is performed at all, every match weight is set to 1.

In SPH_MATCH_ALL and SPH_MATCH_PHRASE modes, final weight is a sum of weighted phrase ranks.

In SPH_MATCH_ANY mode, the idea is essentially the same, but it also adds a count of matching words in each field. Before that, weighted phrase ranks are additionally mutliplied by a value big enough to guarantee that higher phrase rank in any field will make the match ranked higher, even if it's field weight is low.

In SPH_MATCH_EXTENDED mode, final weight is a sum of weighted phrase ranks and BM25 weight, multiplied by 1000 and rounded to integer.

This is going to be changed, so that MATCH_ALL and MATCH_ANY modes use BM25 weights as well. This would improve search results in those match spans where phrase ranks are equal; this is especially useful for 1-word queries.

The key idea (in all modes, besides boolean) is that better subphrase matches are ranked higher, and perfect matches are pulled to the top. Author's experience is that this phrase proximity based ranking provides noticeably better search quality than any statistical scheme alone (such as BM25, which is commonly used in other search engines).

Нажмите, чтобы раскрыть...

MATCH и AGAINST

Azrarn Активный пользователь

Kreker Старожил

Azrarn Активный пользователь

Kreker Старожил

EugeneTM Активный пользователь

Kreker Старожил

EugeneTM Активный пользователь

EugeneTM Активный пользователь

Azrarn Активный пользователь

EugeneTM Активный пользователь

Быстрый поиск

MATCH и AGAINST

Azrarn Активный пользователь

Kreker Старожил

Azrarn Активный пользователь

Kreker Старожил

EugeneTM Активный пользователь

Kreker Старожил

EugeneTM Активный пользователь

EugeneTM Активный пользователь

Azrarn Активный пользователь

EugeneTM Активный пользователь