Я работаю с небольшим подмножеством в основном недействительным HTML, и мне нужно извлечь небольшую часть данных. Учитывая тот факт, что большая часть «разметки» недействительна, я не думаю, что загрузка всего в DOM является хорошим вариантом. Более того, для этого простого случая, похоже, много накладных расходов.Какой самый простой способ извлечь часть данных из HTML в PHP?
Вот пример разметки, у меня есть:
(a bunch of invalid markup here with unclosed tags, etc.)
<TD><span>Something (random text here)</span></TD>
(a bunch more invalid markup here with more unclosed tags.)
<TD><span>Something (random text here)</span></TD>
часть не повторяется нигде в документе, поэтому я считаю, что просто регулярное выражение будет делать трюк.
Однако, я ужасен с регулярными выражениями.
Должен ли я использовать регулярное выражение? Есть ли более простой способ сделать это? Если возможно, я просто хотел бы извлечь текст после Something, (случайный текст здесь).
Заранее благодарен!
Edit -
Exact пример HTML (я пропущенной материал перед, который является недействительной разметкой, который использует поставщик Это не имеет значение для этого примера, я считаю.):
<div class="FormTable">
<TABLE>
<TR>
<TD colspan="2">In order to proceed with login operation please
answer on the security question below</TD>
</TR>
<TR>
<TD colspan="2"> </TD>
</TR>
<TR>
<TD><label class="FormLabel">Security Question</label></TD>
<TD><span>What is your city of birth?</span></TD>
</TR>
<TR>
<TD><label class="FormLabel">Answer</label></TD>
<TD><INPUT name="securityAnswer" class="input" type="password" value=""></TD>
</TR>
</TABLE>
</div>
возможно дубликат [Лучшие методы для разбора HTML] (HTTP: // StackOverflow. com/questions/3577641/best-methods-to-parse-html) - это [первый вопрос в PHP FAQ btw] (http://stackoverflow.com/questions/tagged/php?sort=faq&pagesize=50) – Gordon
Я думаю, самый большой вопрос был бы - есть ли вложенные '' теги? Если нет, я думаю, что регулярное выражение должно быть прекрасным, если это все, что вы ищете. Не могли бы вы привести пример фактического HTML? –