1

Так что моему приложению требуется видимое содержимое с заданного URL-адреса, например, только текстовая часть, без html без данных заголовка или нижнего колонтитула. На данный момент я использую beautifulsoup и boilerpipe для получения того же. Но в некоторых редких случаях я не получаю достаточного количества данных или правильных данных. Поэтому было интересно, есть ли другой конкурент, язык программирования не является барьером.Доступный доступный доступный видимый контент

ответ

1

Я бы порекомендовал xpath или css экстракторы непосредственно для извлечения содержимого, оба селектора уже просто реализованы на модуле parsel.

Для полного набора средств для удаления веб-сканирующего содержимого +, scrapy будет моим предпочтительным вариантом.

И если вы хотите извлечь визуально, какие части html извлечь, я бы порекомендовал portia.

Надеюсь, что помогло.

+0

Большое спасибо за ответ. И да, все это хорошо, но мы не гусеничный. Просто нужно визуальное извлечение содержимого из страницы, например, котельной или красивой. – najeeb