Я знаю, что это не совсем то, что вы просили, но я думал, что показать способ преобразования даты из Вашей ссылки текст в формат, который вы показываете в своем примере желаемого выхода (дд/мм/гг). Я использовал BeautifulSoup для чтения элементов из html.
from bs4 import BeautifulSoup
import datetime as dt
import re
html = '<a href="data/self/dated/station1_140208.txt">Saturday, February 08, 2014</a><br/>'
p = re.compile(r'.*/station1_\d+\.txt')
soup = BeautifulSoup(html)
a_tags = soup.find_all('a', {"href": p})
>>> print a_tags # would be a list of all a tags in the html with relevant href attribute
[<a href="data/self/dated/station1_140208.txt">Saturday, February 08, 2014</a>]
names = [str(a.get('href')).split('/')[-1] for a in a_tags] #str because they will be in unicode
dates = [dt.datetime.strptime(str(a.text), '%A, %B %m, %Y') for a in a_tags]
имена и даты использования list comprehensions
strptime создает даты-времени предметов в строках даты
>>> print names # would be a list of all file names from hrefs
['station1_140208.txt']
>>> print dates # would be a list of all dates as datetime objects
[datetime.datetime(2014, 8, 1, 0, 0)]
toFileData = ["{0}: {1}".format(dt.datetime.strftime(d, '%w/%m/%y'), n) for d in dates for n in names]
strftime форматирует дату в формате в вашем примере:
>>> print toFileData
['5/08/14: station1_140208.txt']
затем напишите en пытаюсь в toFileData
в файл
Для получения информации о методах, которые я использовал такие как soup.find_all()
и a.get()
в коде выше, я рекомендую вам посмотреть на BeautifulSoup
документов по ссылке вверху. Надеюсь это поможет.
Используйте DOM для извлечения всех ссылок и после проверки ссылок, которые являются относительными. –