За последние 24 часа нас посетили 18148 программистов и 1650 роботов. Сейчас ищут 1613 программистов ...

Конвертация PDF в text

Тема в разделе "Решения, алгоритмы", создана пользователем Александр Иванов, 18 янв 2010.

  1. Александр Иванов

    Александр Иванов Активный пользователь

    С нами с:
    30 авг 2009
    Сообщения:
    26
    Симпатии:
    0
    Адрес:
    Александров
    Всем доброго времени суток. Ищу скрипт по конвертации pdf в текст. Если такового нет, то может кто-нибудь из PHP-гуру поделится идейкой как вытащить кирилицу, и не только, из pdf'а. Нашел один топик http://www.php.ru/forum/viewtopic.php?t ... hlight=pdf по данной проблеме, там есть ссылка на другой топик, которого уже не существует.
     
  2. nimistar

    nimistar Активный пользователь

    С нами с:
    30 май 2007
    Сообщения:
    919
    Симпатии:
    0
  3. Александр Иванов

    Александр Иванов Активный пользователь

    С нами с:
    30 авг 2009
    Сообщения:
    26
    Симпатии:
    0
    Адрес:
    Александров
    а есть что нибудь чисто на PHP без использования исполняемых файлов и т.п.?
     
  4. nimistar

    nimistar Активный пользователь

    С нами с:
    30 май 2007
    Сообщения:
    919
    Симпатии:
    0
    не видел

    по-моему тяжеловата данная обработка для пхп
     
  5. Александр Иванов

    Александр Иванов Активный пользователь

    С нами с:
    30 авг 2009
    Сообщения:
    26
    Симпатии:
    0
    Адрес:
    Александров
    в основном возникает проблема только с выдиранием именно русских символов, с латиницей нет проблем
     
  6. nimistar

    nimistar Активный пользователь

    С нами с:
    30 май 2007
    Сообщения:
    919
    Симпатии:
    0
    Александр Иванов - а структура документа ? а картинки ? - или это не надо ?

    тут была тема про обратную конвертацию - хтмль2пдф ... можно там глянуть и поспрашивать ...
     
  7. Александр Иванов

    Александр Иванов Активный пользователь

    С нами с:
    30 авг 2009
    Сообщения:
    26
    Симпатии:
    0
    Адрес:
    Александров
    Не, не надо. Нужно вытащить просто текстовое содержимое.

    Аге, глянем ща, спасибо
     
  8. 440Hz

    440Hz Старожил
    Команда форума Модератор

    С нами с:
    21 дек 2012
    Сообщения:
    8.003
    Симпатии:
    1
    Адрес:
    Оттуда
    PDF открытый формат. написать выдиралку текста. именно текста - один день.
     
  9. Александр Иванов

    Александр Иванов Активный пользователь

    С нами с:
    30 авг 2009
    Сообщения:
    26
    Симпатии:
    0
    Адрес:
    Александров
    я посмотрел этот стандарт, но честно говоря нихрена не понял :), если бы понял за помощью не обращался