мне нужно разобрать следующий пример HTML, используя запрос XPATH ..XPath запроса для разбора HTML-теги
<td id="msgcontents">
<div class="user-data">Just seeing if I can post a link... please ignore post
<a href="http://finance.yahoo.com">http://finance.yahoo.com</a>
</div>
</td>
<td id="msgcontents">
<div class="user-data">some text2...
<a href="http://abc.com">http://abc.com</a>
</div>
</td>
<td id="msgcontents">
<div class="user-data">some text3...
</div>
</td>
выше HTML может повторить п не раз в странице.
Также иногда часть ..... может отсутствовать, как показано в вышеуказанных html-блоках.
Что мне нужно синтаксис XPath, так что я могу получить разобранные строки как
array1[0]= "Just seeing if I can post a link... please ignore post ttp://finance.yahoo.com"
array[1]="some text2 htp://abc.com"
array[2]="sometext3"
(1) Вы можете использовать кнопку «код», чтобы отступать от вашего HTML-кода, чтобы он отображался с угловыми скобками без искажения. (2) Ваш вопрос неоднозначен, потому что атрибут href имеет то же значение, что и текст привязки, и вы не уточните, какой из них вам нужен. (3) HTML не обязательно является корректным XML, поэтому понимайте, что использование XPATH (требующее XML) может не быть простоями, если вы не можете уговорить весь свой HTML в действительный XML. –
XPath для выбора таких элементов 'div':'/html/body/table/tr/td/div [@ class = 'user-data'] '. Тогда вам понадобится строковое значение для каждого узла. Это зависит от метода DOM для языка хоста. – 2010-09-29 12:32:49