За последние 24 часа нас посетил 8961 программист и 459 роботов. Сейчас ищут 310 программистов ...

Чтение doc, docx, odt файлов

Тема в разделе "Прочие вопросы по PHP", создана пользователем Sergey89, 13 авг 2009.

  1. Sergey89

    Sergey89 Активный пользователь

    С нами с:
    4 янв 2007
    Сообщения:
    4.796
    Симпатии:
    0
    Кто-нибудь встречал решения на php либо в виде экстеншена для чтения doc, docx, odt и т.п. файлов? Нужно получить только текст. Хочу организовать индексацию документов для поиска. К exec хотелось бы прибегнуть в крайнем случае.
     
  2. Sergey89

    Sergey89 Активный пользователь

    С нами с:
    4 янв 2007
    Сообщения:
    4.796
    Симпатии:
    0
    Подсказки по opensource поисковым движкам, которые умеют индексировать такие документы то же приветствуются.
     
  3. admyx

    admyx Активный пользователь

    С нами с:
    14 мар 2008
    Сообщения:
    2.159
    Симпатии:
    1
    У меня есть парсер doc файлов. Бинарников.
    Одно но - разбирает только doc, созданный в word'e . Не разбирает doc, созданный в OpenOffice.
    Нужен?
     
  4. kostyl

    kostyl Guest

    Sergey89
    может как то с момощью OLE того же ворда можно читать? или я торможу?
     
  5. Можно. Только это люто-бешенно жрет память
     
  6. 440Hz

    440Hz Активный пользователь
    Команда форума Модератор

    С нами с:
    21 дек 2012
    Сообщения:
    8.003
    Симпатии:
    1
    Адрес:
    Оттуда
    MNOGOSEARCH делает все, но за чсет внешних программ. Под фрей. Я прикручивал DOC,PDF.XLS и т.д. когда поиск на php.ru делал. потом отключил.
     
  7. kostyl

    kostyl Guest

    еще не знаю, то ли я с чем-то путаю то ли нет, но есть тупо родные билы, которые читают, только их апи не описаны достаточно...
     
  8. 440Hz

    440Hz Активный пользователь
    Команда форума Модератор

    С нами с:
    21 дек 2012
    Сообщения:
    8.003
    Симпатии:
    1
    Адрес:
    Оттуда
    феня хорошая, но не в тему.