У меня есть строка текста, содержащая html, и мне нужно извлечь каждый url (скорее всего, в img или теги), чтобы создать общий список строковых объектов. Мне нужны только URL-адреса из тегов html, а не в тексте. Есть ли простой способ сделать это или мне придется прибегать к регулярным выражениям?извлечь все url из строки
Если мне приходится прибегать к регулярным выражениям, не могли бы вы также помочь мне в этом? :)
ОБНОВЛЕНИЕ: Чтобы ответить Seph, вход будет стандартным html.
<p>This is some html text. my favourite website is <a href="http://www.google.com">google</a> and my favourite help site is <a href="http://www.stackoverflow.com">stackoverflow</a> and i check my email at <a href="http://www.gmail.com">gmail</a>. the url to my site is http://www.mysite.com. <img src="http://www.someserver.com/someimage.jpg" alt=""/></p>
И я хочу
- http://www.google.com
- http://www.stackoverflow.com
- http://www.gmail.com
- http://www.someserver.com/someimage.jpg
конечный результат должен быть Все URL в любом HTML Тег, игнорируя те являются «простой текст»
UPPERDATE Хотя он удалил свой ответ, я хочу поблагодарить Джерри Буллард за то, чтобы мое внимание Regex друзей (http://www.regexbuddy). Я хотел поддержать свой ответ, но его ушло. Верните его, и вы получите голосование!
Некоторый текст будет полезен вместе с точным желаемым выходом. – Seph
спасибо, см. Выше – 2010-03-20 01:24:57
@ codemonkey12: см. Мое обновление на основе вашего комментария RegexBuddy. –