Обработка HTML-документа с C#

У меня есть несколько сотен статических файлов HTML, которые необходимо обработать.Обработка HTML-документа с C#

Они содержат ссылки, как этот

<a href="http://www.mysite.com/">Link</a>

мне нужно добавить? Реф = сам к любому URL, который начинается с http://www.mysite.com и становится

<a href="http://www.mysite.com/?ref=self">Link</a>

однако, я не знаю, что это будет be http://www.mysite.com или http://www.mysite.com/ также можно связать с подкаталогом.

Каков наиболее эффективный способ сделать это? в C#

источник

2010-08-22 Rana

Почему голос? – Rana

Я задал себе один и тот же вопрос и поставил перед вами вопрос. – jgauffin

Каков наиболее эффективный способ сделать это? в C#

Посмотрите на строку http://www.mysite.com.
Если этого не происходит, перейдите по ссылке 7.
Ищите следующие ".
Если этого не произошло, ошибки.
Вставить ?ref=self до ".
Перейти к 1.
Возврат.

Это может быть достигнуто с помощью следующей регулярной подстановки выражения:

s#http://www.mysite.com[^"]*#&?ref=self#g

приятнее (более выразительным) способ будет использовать HTML-парсер и XPath.

источник

2010-08-22 05:43:22 strager

Ошибка: атрибут 'href' может быть в одинарных кавычках. – Timwi

@Timwi. Это не ошибка. В ОП четко указывалось, что ожидаемый вход (который не включал '' '), и что эффективность была фактором (так говорят ...). – strager

Я не вижу, где он это сказал. ОП четко заявила, что ожидаемый ввод - ** HTML **. Он также не заявил, что это специальное подмножество HTML, и он не утверждал, что его примеры являются исчерпывающими. Если бы я не прокомментировал, возможно, он не понял, что любой из его HTML-файлов может содержать атрибуты href с одинарными кавычками и что ваш алгоритм молча пропустит их. – Timwi

Анализ HTML может быть сложным, поскольку HTML часто содержит плохо сформированные теги и атрибуты. Я предлагаю изучить существующую библиотеку разбора HTML, чтобы сделать ваш тяжелый подъем, или, используя XSLT, преобразовать действительный (x) HTML в желаемый результат.

У этого вопроса What is the best way to parse html in C#? есть некоторые хорошие ссылки на библиотеки разбора HTML для C#.

источник

2010-08-22 05:39:35 jscharf

Библиотека синтаксического анализа html похожа на захват пушки охотой на уток в этом случае. – jgauffin

@jgauffin, я не вижу, как. Это определенно подходящее решение. – strager

Потому что URI довольно легко найти и заменить в этом случае. – jgauffin

Вы можете использовать Page.Request.UrlReferrer, чтобы определить, откуда пришел запрос.

источник

2010-08-22 08:55:12 bjhamltn

Обработка HTML-документа с C#

ответ

Смежные вопросы