2010-05-10 3 views
0

Я хочу извлечь url из href веб-страницы ... для этого im используя шаблон регулярного выражения как "(? (Http: [/] [/] | www.) ([Az] | [AZ] | [0-9] | [/.] | [~]) *) «шаблон регулярного выражения для http

для извлечения href из html я использовал этот шаблон @" href = \ "" (? [^ \ "" #] ? (? = [\ "" #])) (? (? # {2} [^ #]? # {2}) *) (? # [^ ""] +)? " ""

но проблема в том, что ... он не извлекает URL-адреса из href, а URL-адреса, такие как «www.seo-sem.com» .. и в результате я получаю только «www.seo». ..После дефиса он усекается ... plz может у вас лучший образец регулярного выражения для извлечения url из href .. будет благодарен u ...

+3

Не используйте регулярное выражение для анализа HTML. Найдите простую библиотеку, такую ​​как HTMLAgilityPack, и используйте ее. – Stephan

+0

Никто еще не разместил ссылку? :) –

+0

Даже для базового URI, соответствующего регулярному выражению, необходимо * Ugly * (да, капитал U). – Joey

ответ

4

Используйте HTML Agility Pack, чтобы проанализировать ваш HTML. Вы можете запросить его с помощью Xpath, поскольку он анализирует HTML в объекте XmlDocument.

См. this по причинам, чтобы не анализировать HTML с регулярными выражениями.

+0

Я разрешил проблему с дефисом ... отредактировал регулярное выражение ..thanks anyways..u all rock..keep it up – jaskirat

Смежные вопросы