Получение таблицы из PDF.

alexgl2004 · 7 мар 2020

Есть файл PDF, в нем есть таблица. Как можно получить эти данные с четкой привязкой к ячейкам. Последовательность и все остальное не важно, самое главное, чтобы была четкое обозначение, что таблица содержит ячейки, в ячейках есть данные вот они, забирай.
Есть ли у кого возможные решения даже с "велосипедами", когда через api перевод в word, потом в excel, а там по ячейкам?
Есть ли коммерческие рабочие решения, кто-то может видел?

Если кто даст хотя бы направление, где можно зацепиться, и это реально поможет, я сюда выложу решение вопроса получения данных из ячеек, с привязкой к ним.

На проверенные и непроверенные варианты, сразу отвечу на сколько рабочие и сильно ли трудозатратно?

Пробовал разные классы с githib, но в основном это получение неформатированного текста, без каких либо стопов, переносов, просто получается сплошной текст.

ADSoft · 7 мар 2020

Все зависит от того как эти таблицы в pdf попали .
Если это просто вставка отсканированого документа, то хоть что делайте не выйдет, если только свою ocr не напишите
Иначе - глубоко копать формат pdf и делать то что вам нужно
Ну и 99% что готовых решений конкретно вашей задачи нет, ибо нахрен никому не надо

Drunkenmunky · 13 ноя 2020

alexgl2004 сказал(а): ↑

Есть файл PDF, в нем есть таблица. Как можно получить эти данные с четкой привязкой к ячейкам.
Нажмите, чтобы раскрыть...

Таблицы там нет.
Есть фоновое изображение, и текстовые блоки с точным позиционированием.
То есть, чтобы получить из pdf таблицу нужно знать её координаты на фоновом изображении.
Можно преобразовать pdf(не отсканированное изображение в pdf) в html или xml.
На php такого не встречал.
Но есть http://www.xpdfreader.com/about.html
И основанный на нем же https://sourceforge.net/projects/pdf2xml/

Получение таблицы из PDF.

alexgl2004 Новичок

ADSoft Старожил

Drunkenmunky Активный пользователь

Быстрый поиск

Получение таблицы из PDF.

alexgl2004 Новичок

ADSoft Старожил

Drunkenmunky Активный пользователь