2016-02-04 3 views
0

ОК, я пытаюсь захватить название данных и href и назначить их переменным в java.Схват информации из файла html

<tr class="pl-video yt-uix-tile " data-video-id="MBBWVgE0ewk" data-set-video-id="" data-title="Windows Command Line Tutorial - 1 - Introduction to the Command Prompt"><td class="pl-video-handle "></td><td class="pl-video-index"></td><td class="pl-video-thumbnail"><span class="pl-video-thumb ux-thumb-wrap contains-addto"><a href="/watch?v=MBBWVgE0ewk&amp;index=1&amp;list=PL6gx4Cwl9DGDV6SnbINlVUd0o2xT4JbMu" 
+0

Вы говорите, что пытаетесь что-то сделать. Покажите нам, что вы пробовали делать, и это не сработало. –

+0

@ TheHeadRush Хорошо, честно говоря, я понятия не имею, как это поступить. Я попытался найти учебники и документацию об этом, но не нашел ничего похожего на то, что хотел. Я предпочел бы научиться тому, как это сделать, а только кто-то делает это для меня, но я не думаю, что кто-нибудь ответит, если я просто попрошу об этом книгу или документацию. –

+0

Что вы хотите, это парсер DOM. Java поставляется с набором инструментов для этого в пакете javax.xml.parsers. Jsoup, рекомендованный ниже, немного удобнее, но потребляет больше памяти, по крайней мере, по моему опыту. –

ответ

1

Если вы не возражаете, в том числе зависимости, есть хорошая библиотека для такого рода вещей называется jsoup.

String html = ... 
Document doc = Jsoup.parse(html); 

Element tr = doc.select("tr").first(); 
Element link = tr.select("a").first(); 

String dataTitle = tr.attr("data-title"); 
String href = link.attr("href"); 
+0

Как именно это работает и что, если есть более 1 из href или data-title? –

+0

Посмотрите раздел *** Решение *** по адресу http://jsoup.org/cookbook/extracting-data/attributes-text-html. –

Смежные вопросы