Ума не приложу как это сделать, существует локальная папка в которой содержится архив pdf-файлов (~4Гб), эта папка прикручена к сайту с помощью файл-менеджера. требуется сделать поиск(по этой папке) на сайте с возможностью отображения или скачивания информации от туда. Пробовал разные скрипты (Risearch, Rusearch, etc.) ниасилил не один.
благодарю, за ответ. Но можно поподробнее объяснить (честно говоря только осваиваю язык и программирование в целом)
Mr.M.I.T., сколько интересно пользователей осилит сервер если scandir+file_get_contents юзать для поиска? zarapyan, мне лично поиск в 4-х гигабайтах pdf файлов посредством PHP представляется не вполне логичным. Я бы сделал как-то так: 1. Прочел PDF. 2. Создал табличку в БД. А-ля: id файла | название файла | путь к файлу | содержимое. 3. Поставил Sphinx 4. Проиндексировал содержимое нашей таблички 5. Ну и в результате получил более-менее быстрый поиск. P.S. Если не любите читать по английски или "много букаф": У глубоко уважаемого товарища adw0rd был цикл статей на тему Sphinx.
Mr.M.I.T., 4Gb?... Словосочетания?.... Слова в разных формах?.... Короче покажи свое решение, любопытно взглянуть.
akrinel, 1. словарь получится максимум метров 50 - в худшем случае (это я примерно ляпнул, очень-очень сомневаюсь, что перевалит хотя бы за 30). 2. никто же не говорил и не спрашивал об алгоритме поиска. Знай только потребление памяти оптимизируй: режь словари на подгруппы, жги книги, бей баб. В советские времена обходились без всяких там "Сфинксов".
lexa, да я понимаю что без всего можно обойтись и все работать будет мега круто и там будет только "Собственный теплый ламповый код"™. Можно даже и без кода обойтись, нанять 100 000 человек и заставить выучить каждого по чуть чуть информации из архива... Вот только нахрена?
akrinel с другом сегодня обсуждали устройство поисковой машины гугла пришли к выводу что там сидит 1ккк китайцев у каждого открыт вордовский документ со словами и относящимися к ним сайтам) по команде через icq они начинаю бешено искать, скидывают результаты в статичные html файлы которые потом отдаются пользователю ))
0)Составляешь список документов 1)Составляешь список слов в документах 2)Сопостовляешь каждому слову подходящие документы
Эээ.... это все очень и хорошо и всем огромное спасибо за ответы, но чтение самого PDF мне не требуется, т.к. это в основном изображения со скана, нужно чтобы поиск велся по названиям файлов.
Извини, я повторюсь - я немного слабоват в программировании, алгоритм кода мне непонятен. PHP: # <?php # print_r(glob('./dir/a*.pdf'));