Я успешно удалил данные с веб-страницы. Но он содержит как теги HTML, так и простой текст. Как я могу отфильтровать нежелательные данные (теги, скрипты, какой-то текст, который не требуется, и т. Д.) Из этих очищенных данных. По крайней мере, предложите какой-то подход для этого.Фильтрация скребковых данных с помощью C#
0
A
ответ
1
Вы можете использовать HTML Agility Pack для анализа html и удаления любых нежелательных записей.
1
Вы можете начать принимать взглянуть на HTML Agility Pack. Это должно позволить вам удалить любой HTML.
Это проворный HTML-парсер, который строит для чтения/записи DOM и поддерживает простой XPATH или XSLT (вы на самом деле не должны понимать XPATH ни XSLT, чтобы использовать его, не беспокойтесь ...). Это библиотека .NET-кода, которая позволяет вам обрабатывать HTML-файлы «вне Интернета». Парсер очень толерантен с искаженным HTML-кодом «реального мира». Объектная модель очень похожа на , что предлагает System.Xml, но для HTML-документов (или потоков).
Смежные вопросы
- 1. скребковых данных с помощью Python LXML XPath
- 2. Хранение скребковых данных в MongoDB
- 3. Загрузка скребковых данных в Postgresql
- 4. Запись скребковых данных в csv
- 5. Фильтрация данных с помощью jQuery.grep()
- 6. Фильтрация данных с помощью флажка
- 7. Фильтрация данных с помощью __range
- 8. Фильтрация данных с помощью IF
- 9. Фильтрация данных с помощью pandas
- 10. Фильтрация данных с помощью XSLT
- 11. Фильтрация данных с помощью jquery
- 12. Форматирование скребковых данных с веб-сайта (BeautifulSoup)
- 13. Хранение скребковых данных в базе данных sqlite
- 14. Ввод скребковых данных в базу данных
- 15. сохранение скребковых данных в файл csv
- 16. Запись скребковых данных в файл csv
- 17. Фильтрация GridView с помощью AJAX (ASP.NET/C#)
- 18. Фильтрация данных MYSQL с помощью раскрывающихся списков
- 19. фильтрация данных с помощью .keypress - нет плагинов
- 20. Фильтрация базы данных Кнопка с помощью поиска
- 21. Рекомендации по хранению скребковых данных с меняющимися полями
- 22. python - лучший подход при анализе скребковых данных
- 23. безопасное хранение многопоточных веб-скребковых данных
- 24. Нет данных, скребковых после рекурсивного выскабливания
- 25. Фильтрация данных с помощью Microsoft Sync Framework
- 26. Фильтрация данных с помощью оператора И MySQL
- 27. Использование и фильтрация данных с помощью PHP
- 28. Фильтрация данных excel с помощью pandas
- 29. Фильтрация и сортировка данных с помощью pandas
- 30. Фильтрация диапазона данных с помощью поля ввода