За последние 24 часа нас посетили 19907 программистов и 1694 робота. Сейчас ищут 1578 программистов ...

проверка похожих тем

Тема в разделе "Регулярные выражения", создана пользователем EvelRus, 27 апр 2009.

  1. EvelRus

    EvelRus Активный пользователь

    С нами с:
    16 ноя 2006
    Сообщения:
    2.168
    Симпатии:
    0
    Адрес:
    Москва
    Ребят, подскажите, как построить регулярку для проверки похожих тем?
    Типа "когда наступает Новый год" и "Новый год наступает"...
     
  2. 440Hz

    440Hz Старожил
    Команда форума Модератор

    С нами с:
    21 дек 2012
    Сообщения:
    8.003
    Симпатии:
    1
    Адрес:
    Оттуда
    никак
     
  3. akrinel

    akrinel Активный пользователь

    С нами с:
    26 янв 2009
    Сообщения:
    955
    Симпатии:
    1
    Адрес:
    Spb
    440Hz, поясни, пожалуйста, почему никак?

    А если взять тему, разделить ее на отдельные слова, убрать "мусор" пропустить через морфологизатор, что бы определить нормальную форму слова и подсчитать соотношение слов в двух-трех N темах? Разумеется нужно будет еще кучу всего учесть(например, "бежал" и "не бежал" за одно и то же слово не считать и т.д. и т.п.).
     
  4. EvelRus

    EvelRus Активный пользователь

    С нами с:
    16 ноя 2006
    Сообщения:
    2.168
    Симпатии:
    0
    Адрес:
    Москва
    а если по первым словам?? типа "когда наступает" и выкидвать все темы которые начинаются на "когда наступает"... Как в яндексе, или ответах.майл
     
  5. 440Hz

    440Hz Старожил
    Команда форума Модератор

    С нами с:
    21 дек 2012
    Сообщения:
    8.003
    Симпатии:
    1
    Адрес:
    Оттуда

    а если, блин, головой подумать?

    а если, *****, не пытаться решить все "регулярками" (это из серии /ща скачаю скриптик и пиркручу его на сайтик/), а сначала подумать над задачей. прикинуть алгоритмы и УЖЕ ПОСЛЕ ЭТОГО спрашивать или думать над програмным решением?

    а? слабо?
     
  6. 440Hz

    440Hz Старожил
    Команда форума Модератор

    С нами с:
    21 дек 2012
    Сообщения:
    8.003
    Симпатии:
    1
    Адрес:
    Оттуда
    начни с того, что расспиши или сформулируй
    что такое "похожая тема"?


    а я ВНИМАТЕЛЬНО ПОСЛУШАЮ. мож научусь чему...
     
  7. akrinel

    akrinel Активный пользователь

    С нами с:
    26 янв 2009
    Сообщения:
    955
    Симпатии:
    1
    Адрес:
    Spb
    А если блядь без блядь? Мы же тут все же интеллигентные люди :)
    И я всегда думаю головой, только чаще нижней. ;)

    Так вот, я не спорю, что на данный момент определение похожих тем в стиле:
    "Медведев посетил Париж" и "Наш Кросавчег возле Эйфелевой башни" практически недостижимо без человеческого фактора. Потребуются годы работы на построение и обучение такой нейронки и то ничего хорошего не выйдет.
    Об этом даже речи не идет.

    Но если сформулировать задачу как:

    "Сделать определение похожих тем.
    Похожими считаются темы, в которых совпадает 70 и более процентов слов в нормальной форме.
    Учитывать наличие отрицательных частиц".

    То она вполне решаема. И именно такого рода решение, вероятно, нужно Nemo. ибо я думаю он понимает что первый вариант постановки задачи излишне трудоемок.
     
  8. пф. режешь на слова. сревниваешь декартовым соединением слова через similar_text или подоными. получаешь примерно эквалиентность.
     
  9. EvelRus

    EvelRus Активный пользователь

    С нами с:
    16 ноя 2006
    Сообщения:
    2.168
    Симпатии:
    0
    Адрес:
    Москва
    а если аяксом... через поиск %%???
    select * table from XXX where=%word%??? и выводить сразу результаты? таблицы не большие - 5 -10 строк... тысяц, в смысле :)
     
  10. 440Hz

    440Hz Старожил
    Команда форума Модератор

    С нами с:
    21 дек 2012
    Сообщения:
    8.003
    Симпатии:
    1
    Адрес:
    Оттуда
    ты за всех не говори.
    я нет
     
  11. 440Hz

    440Hz Старожил
    Команда форума Модератор

    С нами с:
    21 дек 2012
    Сообщения:
    8.003
    Симпатии:
    1
    Адрес:
    Оттуда
    а если все-таки сформулировать, что же тебе надо, не на уровне решений, а на уровне задачи?
    =)
     
  12. EvelRus

    EvelRus Активный пользователь

    С нами с:
    16 ноя 2006
    Сообщения:
    2.168
    Симпатии:
    0
    Адрес:
    Москва
    создается новая тема, надо сделать проверку что таких тем больше нет
     
  13. akrinel

    akrinel Активный пользователь

    С нами с:
    26 янв 2009
    Сообщения:
    955
    Симпатии:
    1
    Адрес:
    Spb
    Однако.
     
  14. 440Hz

    440Hz Старожил
    Команда форума Модератор

    С нами с:
    21 дек 2012
    Сообщения:
    8.003
    Симпатии:
    1
    Адрес:
    Оттуда
    а ты думал в сказку попал?
    =)