Как я могу разобрать с PHP файл .doc «документ Microsoft Word 97-2004»?как разобрать файл Microsoft Word 97-2004 .doc с PHP
я могу разобрать "нормальные" файлы с расширением .doc
private function read_doc() {
$fileHandle = fopen($this->filename, "r");
$line = @fread($fileHandle, filesize($this->filename));
$lines = explode(chr(0x0D),$line);
$outtext = "";
foreach($lines as $thisline)
{
$pos = strpos($thisline, chr(0x00));
if (($pos !== FALSE)||(strlen($thisline)==0))
{
} else {
$outtext .= $thisline." ";
}
}
//print_r($outtext);die();
$outtext = preg_replace("/[^a-zA-Z0-9\s\,\.\-\n\r\[email protected]\/\_\(\)]/","",$outtext);
return $outtext;
}
, но это не работает с Microsoft Word 97-2004 .doc файлов. Я просто хочу извлечь чистый текст. Ничего больше.
->Решение is PHPWord как Mark Baker рекомендует в своем комментарии.
Взгляните на библиотеку, например [PHPWord] (https://github.com/PHPOffice/PHPWord), которая может читать файлы формата .doc формата BIFF. –
Mark, с PHPWord это работает как шарм. Спасибо – mart
В конце мне пришлось установить catdoc -> я написал собственный ответ в этом сообщении – mart