2011-01-06 3 views
0

как можно, просто разобрать html-ссылки. Например, я получаю http-ответ, содержащий http. У вас есть ссылки на другие файлы, которые необходимо загрузить, например, jpg, css-файлы, js-файлы. Каков самый простой способ разобрать все эти ссылки.Как просто разобрать html ссылки

+0

Если вам это нужно в C++, тогда пометьте его C++ в следующий раз ... о, и вы должны ** полностью ** попробовать regex: http://stackoverflow.com/questions/1732348/regex-match-open- Теги-except-xhtml-self-contains-tags/1732454 # 1732454 –

+1

@ivo, вы предлагаете регулярное выражение и указываете на провал разбора html с регулярным выражением .. * hmmm .. *, вам не хватает ** не ** в там ? –

+0

@Gaby Не указывает ли сама ссылка на сарказм? :) –

ответ

1

Используйте парсер HTML для своей платформы/языка.

Есть некоторые рекомендации для C++-тегов here.

После того, как у вас есть анализируемый документ, вам нужно будет смотреть на каждую src и href в нем - вы также должны помнить base тег, если он существует, и добавить логику для внешних, относительных и абсолютных путей.

Смежные вопросы