мне нужно, чтобы захватить только и только плавает (это geocoordinates) из тега, как этотэкстракт плавает только из строки
tag = <span id="o_4050267" class="np" style="color:green;cursor:pointer;border-bottom: 1px dotted;" onclick="_gaq.push(['_trackEvent', 'goal', 'click', 'map']);init('4050267','37.61909100','55.85712900','37.604843 55.863384','flat2',1,15);">blahblah</span>
Я пытался использовать gsub("[^0-9]+.[^0-9]+", "/", tag)
, а затем strsplit()
это собирание каждый раз, когда 4-й и 5-й элемент , но, разумеется, при соскабливании 4000+ страниц возникают нерегулярности, а иногда нет координат для объекта, или иногда их больше, а код выбирает неправильные цифры, такие как span's id
, для примера. Более того, мне нужно захватить только первую пару координат, вторая мне не интересна.
Возможно, есть способ работать с этим тегом не как с строкой, а с использованием выражений XPath? К сожалению, я не знаю, как использовать xpath для захвата информации не между тегами, а внутри себя.
Заранее благодарен!
Каков ваш ожидаемый выход? –
@ Avinash, dataframe с 2 столбцами координат с фиксированным количеством строк (общее количество записей на странице), NA. – Seva
Мы не можем догадываться о нерегулярности, если вы не дадите ожидаемый результат более вероятным случаям. Чем лучше вы повышаете свой вопрос, тем лучше у вас есть хорошие ответы. – agstudy