2013-04-27 1 views
-1

Может ли кто-нибудь помочь мне с «извлечением» материала с сайта с помощью Python? Вот информация: У меня есть имя папки с набором чисел (это идентификатор элемента), и я должен использовать этот идентификатор для ввода страницы, а затем «обрывать» информацию со страницы в своем блокноте ... Это примерно так: http : //www.somesite.com/pic.mhtml? id = [ID] ... Мне нужно, чтобы ссылка на изображение (ссылка на изображение всегда содержала ID.jpg в конце файла) и записывала его в блокнот и затем замените это имя txt на имя изображения ... Изображение всегда находится в тегах заголовков ... Спасибо заранее ...Как разобрать веб-элементы в блокнот с помощью Python?

ответ

0

Что вам нужно - скребок данных - http://www.crummy.com/software/BeautifulSoup/ поможет вам извлечь данные с сайтов. Затем вы можете загрузить эти данные в переменную, записать ее в файл или сделать все, что вы обычно делаете с данными.

0

Вы можете попробовать разобрать источник html для изображений. Попробуйте что-то подобное:

class Parser(object): 
__rx = r'(url|src)="(http://www\.page\.com/path/?ID=\d*\.(jpeg|jpg|gif|png)' 

def __crawl(self, url): 
    images = [] 
    code = urllib.urlopen(url).read() 
    for line in code.split('\n'): 
     imagesearch = re.search(self.__rx, line) 
     if imagesearch: 
      image = '%s.%s' % (imagesearch.group(2), imagesearch.group(4)) 
      images.append(image) 
    return images 

это untestet, вы можете проверить регулярное выражение

Смежные вопросы