За последние 24 часа нас посетили 54379 программистов и 1768 роботов. Сейчас ищут 1250 программистов ...

Анализатор текста

Тема в разделе "Прочие вопросы по PHP", создана пользователем Kudja, 3 авг 2007.

  1. Kudja

    Kudja Активный пользователь

    С нами с:
    2 авг 2007
    Сообщения:
    2
    Симпатии:
    0
    Адрес:
    РБ, Брест
    http://www.edimka.ru/cgi-bin/gen.pl - тут есть анализатор, который делает поиск по базе продуктов, принимая различные словоформы, переводя написанные текстом цифры в нормальные цифры, определяющий какие куски текста относятся к какому продукту, возможно синтаксический разбор предложения.

    интересует: кто-нибудь может в кратце рассказать каким образом такое реализуется, через какие алгоритмы, методы... все что может пригодится для такого поиска. буду весьма благодарен.

    там на ПЕРЛ реализованно (если это важно, хотя наврят, но все таки может будет иметь значение) - меня интересует PHP вариант, может быть просто другие названия каких библиотек...

    я думаю так - разбор предложения по частям происходит как то на подобии
    Код (Text):
    1. explode(',',$inputtext);
    - т.е. по запятым
    далее есть какойто словарик/алгоритм, который числа написанные текстом переводит в цифру :) - алгоритмик придумать можно - это думаю не проблема
    далее с использованием какого-нить aspell/pspell/ispell берется им.падеж ед. число продукта, либо выделяется корень из его наименования и ищется в БД по like '%$root%' - тут не совсем ясен момент, как определяется слово ключевое, которое ищем, ведь может остаться какой-нить мусор, на который мы сослаться можем, или тут на оставшиеся слова делать поиск match against лучше???
    ну а с ед.измерения и так понятно - идут сразу после числа.

    кто что может сказать по этому поводу??? - возможно есть какие-либо готовые решения, а я пытаюсь изобретать велосипед...
     
  2. TuXAPuK

    TuXAPuK Активный пользователь

    С нами с:
    5 янв 2007
    Сообщения:
    38
    Симпатии:
    0
    Адрес:
    LV -> Riga
    [offtop]
    Ввёл там :
    Код (Text):
    1. Пиво! Мясо!
    чёт ихний анализатор загнулся на таком запросе... :lol: :lol: :lol: :lol:
    [/offtop]
     
  3. Kudja

    Kudja Активный пользователь

    С нами с:
    2 авг 2007
    Сообщения:
    2
    Симпатии:
    0
    Адрес:
    РБ, Брест
    ну это вполне логично, т.к. база у них не на все продукты - меня же интересует сама идея реализации + предположим что объемы в состав блюда должны обязательно входить