Редактирование: Просто для пояснения Я использую python и хотел бы сделать это в python.Извлечение большого количества URL-адресов
Я нахожусь в центре сбора данных для исследовательского проекта в нашем университете. В основном мне нужно очистить много информации с веб-сайта, который контролирует Европейский парламент. Вот пример того, как URL одного сайта выглядит следующим образом:
Цифры после ссылки часть адреса ссылается на: A7 = парламент в сессии (предыдущие парламенты A6 и т.д.), 2010 = год, 0190 = номер файла.
Что я хочу сделать, так это создать переменную, которая имеет все URL-адреса для разных парламентов, поэтому я могу перебрать эту переменную и очистить информацию с веб-сайтов.
PS: Я попытался это:
number = range(1,190,1)
for i in number:
search_url = "http://www.europarl.europa.eu/sides/getDoc.do?type=REPORT&mode=XML&reference=A7-2010-" + str(number[i]) +"&language=EN"
results = search_url
print results
, но это дает мне следующую ошибку: Traceback (самый последний вызов последним): Файл "", строка 7, в IndexError: индекс списка из диапазона
добавьте обратный символ '' '' вокруг него, и вы можете написать 'code stuff'. Я отредактирую свой ответ, чтобы ответить на этот конкретный вопрос. –
number = range (1,190,1) для i в цифрах: search_url = "http://www.europarl.europa.eu/sides/getDoc.do? type = REPORT & mode = XML & reference = A7-2010 - "+ number [i] +" & language = EN " results = search_url print results –
Спасибо alot Wayne, я не смог понять часть кода для комментариев, поэтому я добавил его в вопрос. Но я вижу, что вы были быстрее меня :) Это именно то, что я искал! –