Есть файл PDF, в нем есть таблица. Как можно получить эти данные с четкой привязкой к ячейкам. Последовательность и все остальное не важно, самое главное, чтобы была четкое обозначение, что таблица содержит ячейки, в ячейках есть данные вот они, забирай. Есть ли у кого возможные решения даже с "велосипедами", когда через api перевод в word, потом в excel, а там по ячейкам? Есть ли коммерческие рабочие решения, кто-то может видел? Если кто даст хотя бы направление, где можно зацепиться, и это реально поможет, я сюда выложу решение вопроса получения данных из ячеек, с привязкой к ним. На проверенные и непроверенные варианты, сразу отвечу на сколько рабочие и сильно ли трудозатратно? Пробовал разные классы с githib, но в основном это получение неформатированного текста, без каких либо стопов, переносов, просто получается сплошной текст.
Все зависит от того как эти таблицы в pdf попали . Если это просто вставка отсканированого документа, то хоть что делайте не выйдет, если только свою ocr не напишите Иначе - глубоко копать формат pdf и делать то что вам нужно Ну и 99% что готовых решений конкретно вашей задачи нет, ибо нахрен никому не надо
Таблицы там нет. Есть фоновое изображение, и текстовые блоки с точным позиционированием. То есть, чтобы получить из pdf таблицу нужно знать её координаты на фоновом изображении. Можно преобразовать pdf(не отсканированное изображение в pdf) в html или xml. На php такого не встречал. Но есть http://www.xpdfreader.com/about.html И основанный на нем же https://sourceforge.net/projects/pdf2xml/