Имеется большое количество книг (>10000) в формате pdf, и поисковый движок Sphinx. Требуется проиндексировать содержимое книг для полнотекстового поиска. Данные для индексирования удобно передавать в формате XML, однако объем XML в таком случае слишком велик для работы. Попробовав подавать на индексацию поток XML, формируемый в php-скрипте, столкнулся с ошибкой "not well-formed (invalid token)". Есть ли резон искать ошибки в формировании потока или лучше индексировать кусками? Спасибо.