Фильтрация скребковых данных с помощью C#

Я успешно удалил данные с веб-страницы. Но он содержит как теги HTML, так и простой текст. Как я могу отфильтровать нежелательные данные (теги, скрипты, какой-то текст, который не требуется, и т. Д.) Из этих очищенных данных. По крайней мере, предложите какой-то подход для этого.Фильтрация скребковых данных с помощью C#

источник

2012-07-04 user1397809

Вы можете использовать HTML Agility Pack для анализа html и удаления любых нежелательных записей.

How to use HTML Agility Pack

источник

2012-07-04 05:51:53

Вы можете начать принимать взглянуть на HTML Agility Pack. Это должно позволить вам удалить любой HTML.

Это проворный HTML-парсер, который строит для чтения/записи DOM и поддерживает простой XPATH или XSLT (вы на самом деле не должны понимать XPATH ни XSLT, чтобы использовать его, не беспокойтесь ...). Это библиотека .NET-кода, которая позволяет вам обрабатывать HTML-файлы «вне Интернета». Парсер очень толерантен с искаженным HTML-кодом «реального мира». Объектная модель очень похожа на , что предлагает System.Xml, но для HTML-документов (или потоков).

источник

2012-07-04 05:52:59 npinti

Фильтрация скребковых данных с помощью C#

ответ

Смежные вопросы