2016-11-05 3 views
0

Я пытаюсь устранить факторы воздействия журналов с определенного веб-сайта или всего веб-сайта. Я искал что-то близкое, но тяжело.Scrape web с запросом

Это первый раз, когда я пытаюсь очистить веб-сайт с помощью python. Я пытаюсь найти самый простой способ.

У меня есть список номеров ISSN, принадлежащих журналам, и я хочу получить значения импакт-фактора из них или из определенного сайта. Список имеет более 50 тыс. Значений, поэтому поиск в ручном режиме практически затруднен.

Тип входа

Index,JOURNALNAME,ISSN,Impact Factor 2015,URL,ABBV,SUBJECT 
1,4OR-A Quarterly Journal of Operations Research,1619-4500,,,4OR Q J OPER RES,Management Science 
2,Aaohn Journal,0891-0162,,,AAOHN J, 
3,Aapg Bulletin,0149-1423,,,AAPG BULL,Engineering 
4,AAPS Journal,1550-7416,,,AAPS J,Medicine 
5,Aaps Pharmscitech,1530-9932,,,AAPS PHARMSCITECH, 
6,Aatcc Review,1532-8813,,,AATCC REV, 
7,Abdominal Imaging,0942-8925,,,ABDOM IMAGING, 
8,Abhandlungen Aus Dem Mathematischen Seminar Der Universitat Hamburg,0025-5858,,,ABH MATH SEM HAMBURG, 
9,Abstract and Applied Analysis,1085-3375,,,ABSTR APPL ANAL,Math 
10,Academic Emergency Medicine,1069-6563,,,ACAD EMERG MED,Medicine 

Что нужно?

Введенный выше столбец номеров ISSN. Прочтите номера ISSN и найдите его в researchgate.net или в Интернете. Затем, после того, как отдельные веб-страницы найдут поиск для Impact Factor 2015 и извлеките это значение, поместите его в пустое место рядом с номером ISSN, а затем поместите полученный URL рядом с ним.

, так что веб-поиск также может быть ограничен одним сайтом и одним поиск по ключевым словам для значения .. пустой один можно держать как «NAN»

заранее спасибо за предложения и помочь

+1

Пожалуйста, проверьте веб-выскабливание библиотеки для питона, как BeautifulSoup или Scrapy. Там есть огромное количество замечательных уроков. Я думаю, что тег pandas немного не подходит для вашего вопроса. После окончания соскабливания панды будут полезны. – su79eu7k

+0

@ su79eu7k Благодарим вас за предложение начать с ... Но возможно ли что-то подобное? –

+0

Согласно сообщению [this] (https://blog.hartleybrody.com/web-scraping/): ** «Любой контент, который можно просмотреть на веб-странице, можно очистить. Период». ** Теперь, в некоторых случаев это может быть очень сложно сделать, но для сайта, подобного вашему, это, безусловно, выполнимо. – blacksite

ответ

3

Попробуйте этот код, используя красивый суп и urllib2 Я использую h2 тег и поиска.„ Журнал Impact:“ , но я дам вам решить алгоритм для извлечения данных. содержание HTML присутствует в суп и суп предоставляет API, чтобы извлечь его. То, что я обеспечиваю является примером и может работать для вас.

#!/usr/bin/env python 

import urllib2 
from bs4 import BeautifulSoup 

issn = '0219-5305' 
url = 'https://www.researchgate.net/journal/%s_Analysis_and_Applications' % (issn) 
htmlDoc = urllib2.urlopen(url).read() 
soup = BeautifulSoup(htmlDoc, 'html.parser') 
for tag in soup.find_all('h2'): 
    if 'Journal Impact:' in tag.text: 
     value = tag.text 
     value = value.replace('Journal Impact:', '') 
     value = value.strip(' *') 
     print value 

Выход:

1.13 

Я думаю, что официальная документация на прекрасный суп довольно хороша. Я предлагаю потратить час на документацию, если вы новичок в этом, прежде чем даже попытаться написать код. Этот час, потраченный на чтение документации, сэкономит вам больше часов.

https://www.crummy.com/software/BeautifulSoup/ https://www.crummy.com/software/BeautifulSoup/bs4/doc/

+0

Большое вам спасибо .. позвольте мне запустить сценарий и ответит назад комментарий .. еще раз спасибо .. –

+0

В моем случае у меня есть список номера ISSN и URL для ссылки .. Основной сайт известен 'researchgate.net', а не отдельный URL-адрес, откуда можно очистить« Journal Impact ». Здесь Он очищается от заданного URL. Так что, пожалуйста, помогите в этом направлении. –

+0

Прошу прочесть вышеуказанный комментарий. –

1

Я не очень понимаю, что вы хотите, чтобы скоблить точно, но я думаю, что вам нужно BeautifulSoup.

Это "са веб выскабливание библиотеки в питоне это очень простой в использовании вы можете найти BeautifulSoup tutorial here

+0

Спасибо .. Так много для понимания. Что мне нужно, я очень четко поставил под вопрос .. И его первый раз, чтобы работать с веб-царапиной, я больше смущен –

Смежные вопросы