Как анализировать только определенную категорию веб-сайта, используя газетную библиотеку?

Я использую Python3 и библиотеку newspaper. Говорят, что эта библиотека может создать объект Source, который является абстракцией новостного сайта. Но что, если мне нужна только абстракция определенной категории.Как анализировать только определенную категорию веб-сайта, используя газетную библиотеку?

Например, когда я использую this url Я хочу получить все статьи категории 'technology'. Вместо этого я получаю статьи от 'politics'.

Я думаю, что при создании объекта Source газета использует только доменное имя, которое в моем случае - www.kyivpost.com).

Есть ли способ заставить его работать с URL-адресами, такими как http://www.kyivpost.com/technology/?

источник

2016-07-06 Andriy Stolyar

Вы нашли выход, чтобы получить категории, используя газетный модуль. Если да, можете ли вы отправить ответ –

newspaper будет использовать rss-канал сайта, если таковой имеется; KyivPost имеет только одну RSS-ленту и публикует статьи в основном по вопросам политики, поэтому ваш результат - это в основном политика.

Возможно, вам удастся использовать BeautifulSoup, чтобы нарисовать URL-адреса статей с технологической страницы и напрямую подать их на newspaper.

источник

2016-08-10 21:24:23

Как анализировать только определенную категорию веб-сайта, используя газетную библиотеку?

ответ

Смежные вопросы