Парсирование pdf файлов

mazurov · 25 фев 2013

Приветствую программисты! В данном задании опыт и чистота кода не важна. Важен ТОЛЬКО конечный результат.
Попытаюсь максимально понятно свободным языком описать задание. В самом начале описания сразу обращу внимание на ОЧЕНЬ убедительную просьбу - вопросы направлять ИСКЛЮЧИТЕЛЬНО в личку или, лучше, в skype (ник v.mazurov). Если же увижу обсуждение тут, в теме, буду просить модераторов и руководство сайтом удалять любые формы обсуждения. Поясню почему: если в теме пойдёт переписка тема будет недоступна для вставки правок. Дело в том, что я не уверен что моё описание будет понятно сразу. А поэтому, программисты будут писать и материться у меня в личке. Я учту все рекомендации, основанные на здравом смысле, и внесу правки в описание. НЕ исключено, что через неделю тема будет выглядеть совсем не так, как сейчас.

Итак, поехали с заданием.
В одно предложение:
нужно делать готовые сайты без дизайна, причем брать контент из pdf файлов.

Детально:
Есть библиотека pdf файлов, которые никогда не были в интернете. Для определенных нужд мне нужны сайты на основе этих pdf файлов. Уверен, тут найдутся много тех, кто уже захотел написать нечто типа "файнридером по ним пройдись". Ага, прошелся бы, но это словари, атласы, глоссарии, энциклопедические и толковые словари. Представьте себе файл в 2Гб, в котором более 60 тысяч терминов и он занимает более 3 тысяч страниц pdf файла. В ручном режиме на вставку в сайт тут не хватит человеческой жизни!

А посему нужен программист. Он просмотрит файл. Кстати, все файлы от разных издателей, и, хотя это словари, одни сделаны так, что каждый термин начинается с отступа в одном, а в другом он сделан жирным шрифтом, а в третьем он сделан прописными буквами. Продолжаю с примерами: словарь белков сделан вообще круто. Буквами сделано описание белка и его название (можно мышкой копировать), а сама формула сделана изображением (копировать мышкой нельзя). Есть атласы, в которых десятки тысяч страниц, текст и таблицы, изображения цветные и ч/б.

После просмотра файла парсер будет написан с нуля. Через него, или при его помощи (не уверен, что понимаю суть процесса) будет получен некий архив, который, при грамотном парсировании, будет предоставлен либо в виде инсертов либо в виде готовой базы данных. Затем на этой основе надо будет сделать сайт. Дизайн вообще не предусмотрен, и он не нужен.

Предположим гипотетически. Зашли на страницу. Там заглавие "Словарь ...Автор..." и потом тут же на главной странице сидит, к примеру, какой-то рубрикатор, в котором буквы английского алфавита: A, B, C, D, и так далее. Далее, поскольку некоторые буквы английского словаря имеют ГОРАЗДО больше слов, чем другие, в каждой из букв надо предусмотреть вторичный рубрикатор. В нём размах букв для выбора. При клике на кнопку попадаем на страницу с коротким списком объектов (к примеру, 30 или 50 на странице), и только при клике на них видим конечный объект.

Для лучшего понимания кликните сюда http://legal-translation.net/ Прокрутите страницу вниз. Там висит энциклопедия законов США. Это был 4,7 Гб файл. Сначала был сайт на вордпрессе. Затем я нашел парсериста. Послал ему архив со всеми сегментами энцилокпедии. Через 2 дня на сайте появились 5760 страниц. Я не шучу! Понятно дело, он не руками копировал и вставлял, это невозможно!

Мне нужно повторить нечто подобное с другими файлами.

Надеюсь, задание понятно. Файлов реально ОЧЕНЬ много. Само собой разумеется, предпочтение будет отдано тому, кто не хочет пробовать и чтобы ему заплатили, а тому, кто знает что надо, умеет, и умеет быстро.

Самое главное, у меня есть парсер, которым разломали энциклопедию законов США. Насколько я слышал, один парсер нельзя переписать или подогнать под другой файл. Надо делать с нуля. Не уверен, поможет ли это вам.

Слать файлы ради «посмотреть» также не виду смысла. Зачем смотреть на один, если еще сотня, которые из другого издательского дома, и написаны АБСОЛЮТНО по другой структуре. Не считаю нужным раскидывать файлы по интернету. Тот, кто знает что мне надо, не потребует файл для просмотра, а, скорее, потребует файл для работы…и через пару дней будет рожден сайт, на котором будет сразу около десятка тысяч страниц.

Быстрый поиск

Парсирование pdf файлов

mazurov Активный пользователь