2016-08-15 2 views
0

Я строю службу RSS-фида, я имею дело со статьями, которые имеют уникальный формат, как это, я просто хочу получить контент, а не xml и конкретные стили или настройки, я попробовал удалить image base64 и стричьте теги и обрезайте несколько пробелов, но все же есть много странного контента прямо там, как я дезинфицирую данные, поэтому я просто получаю простой текст. Это текст с длинным текстом абзаца, текст другого абзаца длинойTrim XML и странный текст в php

<p align="justify"><!--[if gte mso 9]><xml> 
<w:WordDocument> 
    <w:View>Normal</w:View> 
    <w:Zoom>0</w:Zoom> 
    <w:TrackMoves></w:TrackMoves> 
    <w:TrackFormatting></w:TrackFormatting> 
    ... 
    </xml><![endif]--><!--[if gte mso 9]><xml> 
<w:LatentStyles DefLockedState="false" DefUnhideWhenUsed="true" 
    DefSemiHidden="true" DefQFormat="false" DefPriority="99" 
    LatentStyleCount="267"> 
    <w:LsdException Locked="false" Priority="0" SemiHidden="false" 
    UnhideWhenUsed="false" QFormat="true" Name="Normal"></w:LsdException> 
    <w:LsdException Locked="false" Priority="9" SemiHidden="false" 
    UnhideWhenUsed="false" QFormat="true" Name="heading 1"></w:LsdException> 
    <w:LsdException Locked="false" Priority="9" QFormat="true" Name="heading 2"></w:LsdException> 
</xml><![endif]--><!--[if gte mso 10]> 
<style> 
/* Style Definitions */ 
table.MsoNormalTable 
    {mso-style-name:"Table Normal"; 
    mso-tstyle-rowband-size:0; 
    mso-tstyle-colband-size:0; 
    mso-style-noshow:yes; 
mso-bidi-theme-font:minor-bidi;} 
</style> 
<![endif]--> 

<p class="MsoNormal" align="justify">**This is paragraph text long content**</p><p class="MsoNormal" align="justify"> </p><br> 

<p class="MsoNormal" align="justify">**Another paragraph text long content**</p> 
+0

хмм, я не думаю так, я хочу, чтобы удалить эти XML и ненужные теги, я не извлекать данные из самого XML, потому что данные неаккуратно, то есть статья, которая производится из WYSIWYG затем Я хочу получить сводку, обрезая 160 символов с начала этой статьи. –

+0

О, я нашел его, инструмент, который можно использовать для его извлечения из [Как вы анализируете и обрабатываете HTML/XML в PHP?] (Http://stackoverflow.com/questions/3577641/how-do-you-parse- and-process-html-xml-in-php) –

ответ

0

Часть моего вопроса был дан ответ на How do you parse and process HTML/XML in PHP

Экстракт м essy и нездоровый формат HTML-содержимого могут использовать Простой HTML DOM Parser или соответствующие инструменты скриптов.

Благодаря

+0

если контент слишком длинный Простой HTML DOM Parser иногда возвращает null –

Смежные вопросы