Все доброго дня. Подскажите библиотеку для конвертации doc (docx) в текст. Понятно, что есть PhpWord, но у неё вроде проблемы с кириллицей.
docx представляет собой zip архив переименуйте расширение файла вместо docx в zip внутри лежат файлы с расширением xml document.xml нужный вам текст, это как вариант решения
https://stackoverflow.com/questions/5540886/extract-text-from-doc-and-docx PHP: <?php function docx2text($filename) { return readZippedXML($filename, "word/document.xml"); } function readZippedXML($archiveFile, $dataFile) { // Create new ZIP archive $zip = new ZipArchive; // Open received archive file if (true === $zip->open($archiveFile)) { // If done, search for the data file in the archive if (($index = $zip->locateName($dataFile)) !== false) { // If found, read it to the string $data = $zip->getFromIndex($index); // Close archive file $zip->close(); // Load XML from a string // Skip errors and warnings $xml = new DOMDocument(); $xml->loadXML($data, LIBXML_NOENT | LIBXML_XINCLUDE | LIBXML_NOERROR | LIBXML_NOWARNING); // Return data without XML formatting tags return strip_tags($xml->saveXML()); } $zip->close(); } // In case of failure return empty string return ""; } echo docx2text("1.docx"); // Save this contents to file