Я пытаюсь вытащить данные из оценки ESPN коробки, и один из файлов HTML имеет:Как использовать regex в Java, чтобы вытащить это из html?
<td style="text-align:left" nowrap><a href="http://espn.go.com/nba/player/_/id/2754/channing-frye">Channing Frye</a>, PF</td>
, и я заинтересован только в захвате имя (Ченнинг Фрай) и положение (PF)
Прямо сейчас, я использую Pattern.quote(start) + "(.*?)" + Pattern.quote(end)
, чтобы захватить текст между start
и end
, но я не знаю, как я должен захватить текст, который начинается с рисунка .../http://espn.go.com/nba/player/_/id/
и затем может содержать (any integer)/anyfirst-anylast">
затем захватить мне нужно имя (Channing Frye), затем </a>,
и th en захватить нужную мне позицию (PF) и заканчивается рисунком </td>
Спасибо!