2014-01-28 2 views
1

Я пытаюсь создать своего рода робот на Python, сканирую некоторую информацию в Интернете, который я выбрал. Проблема в том, что некоторые сайты, такие как Facebook и Twitter, получили API, требующие ключей при каждом использовании. Например, как я могу найти результаты Twitter для исследования без каких-либо странных ключей для проверки моего запроса на Python? Является ли это возможным ?Обходите аутентификацию и ключи API (например, Facebook и Twitter)

ответ

1

Если вы не хотите проходить аутентификацию для каждого API, то маршрут, который нужно взять, составляет scrape. В принципе, вы загрузите twitter search results в формате HTML и проанализируете этот HTML-файл. При просмотре HTML-файл (control + U в Firefox), вы можете увидеть текст чирикать содержится в этом элементе:

<p class="js-tweet-text tweet-text"> 

Вы не сможете собрать как можно больше данных, но это будет в основном анонимно собран (без ключа/аутентификации). Чтобы собрать больше данных, вы можете crawl используя ссылки, которые вы найдете на веб-сайте HTML (т. Е. , следующая страница).

Вот некоторые материалы для чтения по выскабливанию в python: link.

В дополнение к lxml, BeautifulSoup является мощной и популярной библиотекой для очистки и разбора HTML.

Смежные вопросы