За последние 24 часа нас посетили 22862 программиста и 1237 роботов. Сейчас ищут 695 программистов ...

Формирование XML для поточного индексирования

Тема в разделе "PHP для новичков", создана пользователем nikolaypronchev, 25 июн 2018.

Метки:
  1. nikolaypronchev

    nikolaypronchev Новичок

    С нами с:
    25 июн 2018
    Сообщения:
    1
    Симпатии:
    0
    Имеется большое количество книг (>10000) в формате pdf, и поисковый движок Sphinx. Требуется проиндексировать содержимое книг для полнотекстового поиска.
    Данные для индексирования удобно передавать в формате XML, однако объем XML в таком случае слишком велик для работы.
    Попробовав подавать на индексацию поток XML, формируемый в php-скрипте, столкнулся с ошибкой "not well-formed (invalid token)". Есть ли резон искать ошибки в формировании потока или лучше индексировать кусками?
    Спасибо.