Так что моему приложению требуется видимое содержимое с заданного URL-адреса, например, только текстовая часть, без html без данных заголовка или нижнего колонтитула. На данный момент я использую beautifulsoup и boilerpipe для получения того же. Но в некоторых редких случаях я не получаю достаточного количества данных или правильных данных. Поэтому было интересно, есть ли другой конкурент, язык программирования не является барьером.Доступный доступный доступный видимый контент
1
A
ответ
1
Я бы порекомендовал xpath
или css
экстракторы непосредственно для извлечения содержимого, оба селектора уже просто реализованы на модуле parsel
.
Для полного набора средств для удаления веб-сканирующего содержимого +, scrapy
будет моим предпочтительным вариантом.
И если вы хотите извлечь визуально, какие части html извлечь, я бы порекомендовал portia
.
Надеюсь, что помогло.
Большое спасибо за ответ. И да, все это хорошо, но мы не гусеничный. Просто нужно визуальное извлечение содержимого из страницы, например, котельной или красивой. – najeeb