2015-10-13 3 views
-1

Я пытаюсь разобрать информацию о работе с HTML-страницы с помощью парсера Jsoup. Я пытаюсь извлечь все данные о вакансии, но я просто не мог правильно получить запрос. Я пытался в Tryjsoup.com, чтобы получить представление о структуре запроса, но я не могу понять, как я могу получить эти кортежи, а также просьба сообщить о том, как получить контроль над своей внутренней структуройАнализ данных с использованием Jsoup

HTML кода:

<div itemscope itemtype="http://schema.org/JobPosting" type="tuple" id="131015000050" class="row "> 
<a count=1 href="some link"> 
<span itemprop=title><font class=hlite>Developer</font></span> 
<span itemprop=hiringOrganization>Vm World</span> 
</a> 
</div> 
<div class= "other details"><span itemprop=baseSalary><em></em>3000</span></div> 

Ожидаемый результат:

Строка сообщение = Разработчик

Строка Компания = Vm World

Строка Зарплата = 3000

+0

Пожалуйста, добавьте на ваш вопрос, что именно вы ожидаете получить от HTML. Любой пример вывода был бы хорош для этого. – luksch

+0

@luksch Я добавил ожидаемый результат. Еще мой вопрос остается, как получить div tuple –

ответ

2

Я думаю, вам просто нужно использовать Element.select("span") для блока HTML-кода.

Document doc = Jsoup.parse("<HTML code>"); 
Elements spans = doc.select("span"); 
for(Element span: spans) { 
    System.out.println(span.text()); 
} 

В результате приведенного выше кода:

Developer 
Vm World 
3000 

Код для segregatiton:

Element title = doc.select("span[itemprop=title]").first(); 
Element post = doc.select("span[itemprop=hiringOrganization]").first(); 
Element salary = doc.select("span[itemprop=baseSalary]").first(); 
System.out.println(title.text()); 
System.out.println(post.text()); 
System.out.println(salary.text()); 
+0

Ваш запрос действительно работает, но он не находит зарплату в div [other_class]. Также я не могу разделить данные на основе заголовка, должности и зарплаты. –

+0

@amanshivhare Я добавил новый код для сегрегации. –

+0

Jsoup не может идентифицировать 'itemprop' в диапазоне, чтобы получить пустой вывод. –