2016-08-25 4 views
0

Я пытаюсь извлечь только имя файла из яваскрипта ссылки в import.io, например googlebolver.htm от href="javascript:finpopup('googlebolver.htm',920,620,0)"XPath - Извлечение spectific имени файла из строки

мне удалось добраться до «ссылки» (javascript:finpopup('googlebolver.htm',920,620,0)) со следующим XPath

//*[text()='GOOGLE.MAPS']/@href 

, но я хотел был бы получить к фактическому адресу самостоятельно. Как я использую import.io Extracto на нескольких URL-адресах, я хочу найти что-то вроде *.htm

Я считаю, что это возможно возможно с помощью функции подстроки, но я не знаю, как это сделать. следующие вопросы этого сайта выглядели многообещающими, но один работает только для укусы фиксированной длины, а другой я не совсем понимаю, и работает только для конкретного «слова»

  1. Extract value from javascript object in site using xpath and import.io
  2. How to use substring() with Import.io?

заранее спасибо за вашу помощь

EDIT: Вот URL

+0

Можете ли вы поделиться своим URL-адресом –

+0

@AndrewFogg Выполнено :-) Я использую поиск XPath вместо местоположения, потому что некоторые другие страницы помещают его в другом порядке – adamantium

ответ

0

Вы можете использовать функции XPath substring-after и substring-before, чтобы выбрать текст после того, как, скажем, (' и до ',

в вашем примере, это будет

substring-before(substring-after(//*[text()='GOOGLE.MAPS']/@href,"('"),"',") 

Примечание: Я не знаю, если import.io поддерживает эту стандартную функцию XPath

Смежные вопросы