У меня есть следующие данныеPHP рег ех, чтобы найти данные не в HTML-теги, но определить HTML с использованием < и >
<description><div dir="ltr" style="text-align: left;" trbidi="on"><div class="MsoNormal"><i><span style="font-family: Georgia, Times New Roman, serif; font-size: xx-small;">By Marina Correa</span></i></div><div class="MsoNormal"><i><span style="font-family: Georgia, Times New Roman, serif; font-size: xx-small;">Photography: Courtesy the architect</span><span style="font-family: Georgia, serif; font-size: 9pt;"><o:p></o:p></span></i></div><div class="MsoNormal"><br></div><table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto; text-align: center;"><tbody><tr><td style="text-align: center;"><a href="http://3.bp.blogspot.com/-D1JRy4epwOM/UooCcR-U7lI/AAAAAAAALyM/tDr2ezxnb-I/s1600/Prost_Beer_+House_AH_Design_Indiaartndesign.jpg" imageanchor="1" style="margin-left: auto; margin-right: auto;"><img alt="Prost Beer House in Bengaluru, India,by AH design." border="0" src="http://3.bp.blogspot.com/-D1JRy4epwOM/UooCcR-U7lI/AAAAAAAALyM/tDr2ezxnb-I/s1600/Prost_Beer_+House_AH_Design_Indiaartndesign.jpg" title=""></a></td></tr><tr><td class="tr-caption" style="text-align: right;"><span style="font-family: Arial, Helvetica, sans-serif; font-size: xx-small;">.</span></td></tr></tbody></table><div class="MsoNormal"><br></div><div class="MsoNormal"></div><div style="text-align: justify;"><span style="font-family: Georgia, &#39;Times New Roman&#39;, serif;">Evolving from carnage of shipwrecked metal, the interiors of Prost Beer House in Bengaluru, India, make it an attention-grabbing drinking hole…</span></div></div><a href="http://inditerrain.indiaartndesign.com/2013/11/beerhouse-rock.html#more">Read more »</a><img src="http://feeds.feedburner.com/~r/IndiaArtNDesign/~4/jGC75D3KB0o" height="1" width="1"/></description>
однако вместо «<» я есть «& л;» и вместо «>» у меня есть «&»;
мне нужно регулярное выражение, чтобы найти данные не внутри HTML-теги, то есть сам текст, а не имена тегов, имя класса и т.д. ...
для разбора HTML с «<» и " > «Я нашел это: (? < =^|>) [^> <] +? (? = < | $)
хотя я не знаю, как его преобразовать в соответствии с тем, что мне нужно. помощь очень ценится
[html_entity_decode();] (http://us3.php.net/html_entity_decode) и/или [htmlspecialchars_decode();] (http://php.net/manual/en/function.htmlspecialchars-decode.php), затем используйте DOM-парсер для получения ваших данных. –