2015-10-28 2 views
1

Я пытаюсь создать/получить список ссылок новостей из поиска по ключевым словам с веб-сайта новостей с использованием Python. Для поиска Google я знаю некоторое использование requests, но пока страница поиска Google имеет свой собственный адрес ссылки (то есть https://www.google.dz/search?q=keyword), некоторые веб-сайты не передают ключевое слово через веб-адрес.Python Скребки ссылок из результатов поиска

Во-первых, например, в http://english.hani.co.kr/, пользователи приводятся на страницу результатов поиска http://search.hani.co.kr/Search со списком ссылок независимо от того, какое ключевое слово они набирают (Korea Times - еще один пример). Таким образом, можно ли использовать библиотеку Python для извлечения этих ссылок?

Второй - в предыдущих двух и многих других случаях (например, this) результаты поиска отображаются на целых сотнях страниц. С какими инструментами и методами я должен обратиться, чтобы составить исчерпывающий список новостей?

+0

(1) Почему вы спрашиваете, как получить поисковый запрос из SERP? (вам это не нужно, если вы сами делаете запросы) Откуда вы получаете контент SERP? (2) Ограничьте свои вопросы одним вопросом на вопрос: как получить разбитые на страницы результаты - это другой вопрос. – jfs

+0

Эй! (1), потому что, если я хочу очистить всю ссылку, мне нужно передать конкретные страницы в BeautifulSoup вместо общего url (http://search.hani.co.kr/Search), который вместо этого дает мне домашнюю страницу поиска каких-либо конкретных результатов, даже если я сам сделаю запрос. Для (2), спасибо за примечание! –

ответ

2

Есть две основные задачи, которые используются, чтобы очистить веб-сайты:

  • Загрузка веб-страницы в строку.
  • Разбирайте HTML с веб-страницы, чтобы найти интересные биты.

Вы можете посмотреть более подробную информацию, как сделать here.

Таким образом, некоторые поисковые запросы на использовании двигателя GET, чтобы сделать поиск и другой метод POST . Для тех, кто использует метод POST, уникальный способ выполняет поиск (а не по URL) и получает результаты html для анализа.

В обоих случаях (GET и POST) вы можете использовать beautifulsoup.

+0

Спасибо! Это полезно. Вы знаете, в каком месте я должен искать особенности получения результата HTML через POST? Ссылка хорошая, но я хотел бы больше узнать об этом. –

Смежные вопросы