Я пытаюсь устранить факторы воздействия журналов с определенного веб-сайта или всего веб-сайта. Я искал что-то близкое, но тяжело.Scrape web с запросом
Это первый раз, когда я пытаюсь очистить веб-сайт с помощью python. Я пытаюсь найти самый простой способ.
У меня есть список номеров ISSN, принадлежащих журналам, и я хочу получить значения импакт-фактора из них или из определенного сайта. Список имеет более 50 тыс. Значений, поэтому поиск в ручном режиме практически затруднен.
Тип входа
Index,JOURNALNAME,ISSN,Impact Factor 2015,URL,ABBV,SUBJECT
1,4OR-A Quarterly Journal of Operations Research,1619-4500,,,4OR Q J OPER RES,Management Science
2,Aaohn Journal,0891-0162,,,AAOHN J,
3,Aapg Bulletin,0149-1423,,,AAPG BULL,Engineering
4,AAPS Journal,1550-7416,,,AAPS J,Medicine
5,Aaps Pharmscitech,1530-9932,,,AAPS PHARMSCITECH,
6,Aatcc Review,1532-8813,,,AATCC REV,
7,Abdominal Imaging,0942-8925,,,ABDOM IMAGING,
8,Abhandlungen Aus Dem Mathematischen Seminar Der Universitat Hamburg,0025-5858,,,ABH MATH SEM HAMBURG,
9,Abstract and Applied Analysis,1085-3375,,,ABSTR APPL ANAL,Math
10,Academic Emergency Medicine,1069-6563,,,ACAD EMERG MED,Medicine
Что нужно?
Введенный выше столбец номеров ISSN. Прочтите номера ISSN и найдите его в researchgate.net
или в Интернете. Затем, после того, как отдельные веб-страницы найдут поиск для Impact Factor 2015
и извлеките это значение, поместите его в пустое место рядом с номером ISSN, а затем поместите полученный URL рядом с ним.
, так что веб-поиск также может быть ограничен одним сайтом и одним поиск по ключевым словам для значения .. пустой один можно держать как «NAN»
заранее спасибо за предложения и помочь
Пожалуйста, проверьте веб-выскабливание библиотеки для питона, как BeautifulSoup или Scrapy. Там есть огромное количество замечательных уроков. Я думаю, что тег pandas немного не подходит для вашего вопроса. После окончания соскабливания панды будут полезны. – su79eu7k
@ su79eu7k Благодарим вас за предложение начать с ... Но возможно ли что-то подобное? –
Согласно сообщению [this] (https://blog.hartleybrody.com/web-scraping/): ** «Любой контент, который можно просмотреть на веб-странице, можно очистить. Период». ** Теперь, в некоторых случаев это может быть очень сложно сделать, но для сайта, подобного вашему, это, безусловно, выполнимо. – blacksite