Ребят, подскажите, как построить регулярку для проверки похожих тем? Типа "когда наступает Новый год" и "Новый год наступает"...
440Hz, поясни, пожалуйста, почему никак? А если взять тему, разделить ее на отдельные слова, убрать "мусор" пропустить через морфологизатор, что бы определить нормальную форму слова и подсчитать соотношение слов в двух-трех N темах? Разумеется нужно будет еще кучу всего учесть(например, "бежал" и "не бежал" за одно и то же слово не считать и т.д. и т.п.).
а если по первым словам?? типа "когда наступает" и выкидвать все темы которые начинаются на "когда наступает"... Как в яндексе, или ответах.майл
а если, блин, головой подумать? а если, *****, не пытаться решить все "регулярками" (это из серии /ща скачаю скриптик и пиркручу его на сайтик/), а сначала подумать над задачей. прикинуть алгоритмы и УЖЕ ПОСЛЕ ЭТОГО спрашивать или думать над програмным решением? а? слабо?
начни с того, что расспиши или сформулируй что такое "похожая тема"? а я ВНИМАТЕЛЬНО ПОСЛУШАЮ. мож научусь чему...
А если блядь без блядь? Мы же тут все же интеллигентные люди И я всегда думаю головой, только чаще нижней. Так вот, я не спорю, что на данный момент определение похожих тем в стиле: "Медведев посетил Париж" и "Наш Кросавчег возле Эйфелевой башни" практически недостижимо без человеческого фактора. Потребуются годы работы на построение и обучение такой нейронки и то ничего хорошего не выйдет. Об этом даже речи не идет. Но если сформулировать задачу как: "Сделать определение похожих тем. Похожими считаются темы, в которых совпадает 70 и более процентов слов в нормальной форме. Учитывать наличие отрицательных частиц". То она вполне решаема. И именно такого рода решение, вероятно, нужно Nemo. ибо я думаю он понимает что первый вариант постановки задачи излишне трудоемок.
пф. режешь на слова. сревниваешь декартовым соединением слова через similar_text или подоными. получаешь примерно эквалиентность.
а если аяксом... через поиск %%??? select * table from XXX where=%word%??? и выводить сразу результаты? таблицы не большие - 5 -10 строк... тысяц, в смысле