мне нужно разобрать следующий HTML-документ:Анализировать HTML в R с частичными совпадениями
<span class="revision-gradient shadowed">90</span>
<span class="revision-gradient not_shadowed">75</span>
<span class="revision-gradient shadowed">85</span>
<span class="revision-gradient blurred">60</span>
Чтобы вернуть список:
[90, 75, 85, 60]
Я обычно использую этот код, но я не знаете, как разобрать для частичного совпадения:
document <- htmlParse(url)
myList <- unlist(lapply(document['//span[@class="revision-gradient"]'],xmlValue))
Являются ли они единственными элементами в документе XML или есть дополнительные теги, которые необходимо игнорировать? –
Существует 5 или 6 вариантов. Не тонна, так что худший сценарий, построивший список разных комбинаций, будет работать. – NBC
- это интересующие вас варианты, или они меняются? –