2016-12-25 3 views
-1

Я работаю над проектом, где я надеюсь получить данные от Google Scholar. Я хочу скопировать всех авторов, помеченных в категории (например, Anaphylaxis) и сохранить их количество ссылок, индекс h-index и i-10 в CSV-файле. Однако я не уверен, как это сделать, учитывая, что Google Scholar не имеет API. Я понимаю, что могу использовать скребок, как красивый суп, но не знаю, как очистить данные, не блокируя их.Скремблирование Авторы на основе тегов из Google Scholar

Итак, мой вопрос: как я могу использовать bs4 для хранения всех авторов, помеченных как Anaphylaxis и цитаты каждого автора, индекс h-index и i-10 в файле csv.

+0

Итак, в чем вопрос? – Peaceful

+0

@Peaceful обновили, чтобы уточнить – user7339949

+0

Звучит довольно интересно! У меня нет ответа, особенно о блокировке. Однако, возможно, вы не видели https://pypi.python.org/pypi/scholarly/0.2.2? Код может быть структурирован по этим результатам. –

ответ

0

Весь скребок выполняет разбор некоторых HTML-страниц. При поиске авторы находятся в div с классом = «gs_a». Если вы используете Beautiful Soup и ищете этот класс, вы сможете найти всех авторов. Вы можете перейти по страницам, обновив URL-адрес.

https://scholar.google.ca/scholar?start=20&q=polymer&hl=en&as_sdt=0,5 в https://scholar.google.ca/scholar?start=30&q=polymer&hl=en&as_sdt=0,5

т.е.. Начало = 30, затем 40 и т. Д.

Затем вы можете перебрать базу имен авторов по пути ссылки в тегах класса gs_a.

Дайте мне знать, если это поможет!

-Kyle

+0

Меня интересует общее количество цитирований каждого автора, а не документы – user7339949

Смежные вопросы