2012-07-04 3 views
0

Я успешно удалил данные с веб-страницы. Но он содержит как теги HTML, так и простой текст. Как я могу отфильтровать нежелательные данные (теги, скрипты, какой-то текст, который не требуется, и т. Д.) Из этих очищенных данных. По крайней мере, предложите какой-то подход для этого.Фильтрация скребковых данных с помощью C#

ответ

1

Вы можете начать принимать взглянуть на HTML Agility Pack. Это должно позволить вам удалить любой HTML.

Это проворный HTML-парсер, который строит для чтения/записи DOM и поддерживает простой XPATH или XSLT (вы на самом деле не должны понимать XPATH ни XSLT, чтобы использовать его, не беспокойтесь ...). Это библиотека .NET-кода, которая позволяет вам обрабатывать HTML-файлы «вне Интернета». Парсер очень толерантен с искаженным HTML-кодом «реального мира». Объектная модель очень похожа на , что предлагает System.Xml, но для HTML-документов (или потоков).

Смежные вопросы