2014-11-14 3 views
-1

мне нужно, чтобы захватить только и только плавает (это geocoordinates) из тега, как этотэкстракт плавает только из строки

tag = <span id="o_4050267" class="np" style="color:green;cursor:pointer;border-bottom: 1px dotted;" onclick="_gaq.push(['_trackEvent', 'goal', 'click', 'map']);init('4050267','37.61909100','55.85712900','37.604843 55.863384','flat2',1,15);">blahblah</span> 

Я пытался использовать gsub("[^0-9]+.[^0-9]+", "/", tag), а затем strsplit() это собирание каждый раз, когда 4-й и 5-й элемент , но, разумеется, при соскабливании 4000+ страниц возникают нерегулярности, а иногда нет координат для объекта, или иногда их больше, а код выбирает неправильные цифры, такие как span's id, для примера. Более того, мне нужно захватить только первую пару координат, вторая мне не интересна.

Возможно, есть способ работать с этим тегом не как с строкой, а с использованием выражений XPath? К сожалению, я не знаю, как использовать xpath для захвата информации не между тегами, а внутри себя.

Заранее благодарен!

+0

Каков ваш ожидаемый выход? –

+0

@ Avinash, dataframe с 2 столбцами координат с фиксированным количеством строк (общее количество записей на странице), NA. – Seva

+0

Мы не можем догадываться о нерегулярности, если вы не дадите ожидаемый результат более вероятным случаям. Чем лучше вы повышаете свой вопрос, тем лучше у вас есть хорошие ответы. – agstudy

ответ

0
\b\d+\.\d+\b 

Try this.See demo.

http://regex101.com/r/pQ9bV3/23

+0

'> gsub (" \ b \ d + \. \ D + \ b ","/", geo) Ошибка: '\ d' - это нераспознанный escape в символьной строке, начинающийся с" "\ b \ d" ' – Seva

+0

@ Seva 'gsub (" \ b \ d + \. \ D + \ b ","/", geo, perl = TRUE)' – vks

+0

получил тот же результат – Seva

Смежные вопросы