2012-09-25 4 views
0

Во-первых, я новичок в сообществе в качестве пользователя, и я хочу сказать, что он отличный.Экспорт определенной части html-страницы с партией

Мой вопрос заключается в том, что я хочу, чтобы получить URL из <a href="" элемента, используя <alt="new"> или имя изображения, используемого в этой части <td> с веб-страницы, меняется каждый день и не принадлежит мне.

До сих пор я закодировал что-то, чтобы загрузить страницу с wget в текстовый файл, а затем искал изображение или переменную alt. Даже если это принесло мне ту часть, в которой находились искомые предметы, она не включает в себя часть <a href, которая мне нужна, которая находится непосредственно перед изображением.

Редактировать: мне удалось получить строку ниже, мне просто нужно получить URL-адрес внутри с пакетом или перенаправить на него с помощью javascript, но поскольку изменения названия и URL-адреса, это было сложно. Любая помощь ?

<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a> 
+0

Вы говорите о командных файлах Windows или сценариях Bash? – Blender

+0

windows batch files – user1697980

+0

Вы только что добавили тег Javascript? Я не помню этого со вчерашнего дня. –

ответ

0

Использование предоставленный код:

set "x=<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>" 

set "x=%x:<=%"    & :: Remove Redirection Character 
set "x=%x:>=%"    & :: Remove Redirection Character 
set x=%x:*href=%   & :: Remove everything up till href= 
set x=%x:~2%    & :: Trim =" 
set x=%x:"='%    & :: Replace Double Quotes with Single Quotes 
set "x=%x:' =" & rem %  & :: Remove everything after URL 

echo %x% 

Обратите внимание, что двойные кавычки, они необходимы для удаления HTML тегов deliminators < и >, потому что те Перенаправление символы, которые будут вызывать ошибки, если не surounded двойные кавычки.

Вы можете скопировать и вставить вышеуказанный код непосредственно в командной строке, чтобы проверить его.

0

Если я вас понимаю corectly вы хотите сделать получить от ссылки HTML файл, содержащийся в <a href=""? Первым решением, которое приходит мне на ум, является загрузка всего HTML и использование библиотеки python и BeautifulSoup для анализа этого файла и получения всех «hrefs». Это то, что вы имели ввиду?

+0

в основном да, но поскольку страница включает в себя множество ссылок и единственное, что я могу использовать, чтобы различать нужные, это изображение, поэтому использование только hrefs не поможет. BeautifulSoup выглядит очень полезно, но так как я не знаю python, это займет время, чтобы использовать его, я думаю. Благодаря ! – user1697980

Смежные вопросы