2012-02-25 2 views
0

Я пытаюсь извлечь информацию о названии продукта из Google Покупки (http://www.google.co.uk/m/products?q=5010459007289, веб-сайт телефона).Извлечение данных с использованием JSoup

Название продукта всегда появляются между пролетом с классом «owb63p», например

"<span class="owb63p">Highland Spring Sports Bottle 750 Ml</span>" 

Я новичок с JSoup, я могу соединиться с URL и получить весь документ, но мне просто нужно помогите настроить его, чтобы я получил только ту часть информации, которая мне нужна.

Благодаря

+0

мне удалось выбрать все «span», используя: \t \t \t \t \t Элемент masthead = doc.select ("span.owb63p"). first(); затем просто разделил строку, чтобы получить имя продукта. это правильный путь? – Pedro

ответ

0

Я не люблю JSoup, что много, но с апачом jericho он хотел:

  Source source=new Source(new URL(sourceUrlString)); 
    String content=source.getFirstElementByClass("owb63p").getContent().toString(); 
1

В JSoup это будет так:

Document doc = Jsoup.connect("www.google.co.uk/m/products?q=5010459007289").get(); 
Element title = doc.select("span.owb63p").first(); 
    System.out.println(title.text()); 
0

Вы можете попробовать

doc.select("span").get(0).data(); 

или вы можете просто перебирать для нескольких тегов пролетных ...

Смежные вопросы