За последние 24 часа нас посетили 18582 программиста и 1649 роботов. Сейчас ищут 876 программистов ...

Получение таблицы из PDF.

Тема в разделе "Решения, алгоритмы", создана пользователем alexgl2004, 7 мар 2020.

  1. alexgl2004

    alexgl2004 Новичок

    С нами с:
    7 мар 2020
    Сообщения:
    1
    Симпатии:
    0
    Есть файл PDF, в нем есть таблица. Как можно получить эти данные с четкой привязкой к ячейкам. Последовательность и все остальное не важно, самое главное, чтобы была четкое обозначение, что таблица содержит ячейки, в ячейках есть данные вот они, забирай.
    Есть ли у кого возможные решения даже с "велосипедами", когда через api перевод в word, потом в excel, а там по ячейкам?
    Есть ли коммерческие рабочие решения, кто-то может видел?

    Если кто даст хотя бы направление, где можно зацепиться, и это реально поможет, я сюда выложу решение вопроса получения данных из ячеек, с привязкой к ним.

    На проверенные и непроверенные варианты, сразу отвечу на сколько рабочие и сильно ли трудозатратно?

    Пробовал разные классы с githib, но в основном это получение неформатированного текста, без каких либо стопов, переносов, просто получается сплошной текст.
     
    #1 alexgl2004, 7 мар 2020
    Последнее редактирование: 7 мар 2020
  2. ADSoft

    ADSoft Старожил

    С нами с:
    12 мар 2007
    Сообщения:
    3.854
    Симпатии:
    748
    Адрес:
    Татарстан
    Все зависит от того как эти таблицы в pdf попали .
    Если это просто вставка отсканированого документа, то хоть что делайте не выйдет, если только свою ocr не напишите
    Иначе - глубоко копать формат pdf и делать то что вам нужно
    Ну и 99% что готовых решений конкретно вашей задачи нет, ибо нахрен никому не надо
     
  3. Drunkenmunky

    Drunkenmunky Активный пользователь

    С нами с:
    12 авг 2020
    Сообщения:
    1.484
    Симпатии:
    281
    Таблицы там нет.
    Есть фоновое изображение, и текстовые блоки с точным позиционированием.
    То есть, чтобы получить из pdf таблицу нужно знать её координаты на фоновом изображении.
    Можно преобразовать pdf(не отсканированное изображение в pdf) в html или xml.
    На php такого не встречал.
    Но есть http://www.xpdfreader.com/about.html
    И основанный на нем же https://sourceforge.net/projects/pdf2xml/