извлечение имени файла изображения из Интернета

Я пытаюсь очистить информацию об изображении из Интернета, и мне интересно, есть ли способ извлечь имя файла изображения. Например, если следующее выражение HTML хранится в источнике,извлечение имени файла изображения из Интернета

<img src=http://www.adbongo.com/wp-content/uploads/2013/09/digital-bongo.jpg>,

Я хочу, чтобы извлечь digital-bongo.jpg часть.

Спасибо,

источник

2013-12-08 Jin-Dominique

При использовании HTML-парсер? Конечно, я бы не использовал регулярные выражения. –

Хм ... это может быть лучшая идея ... спасибо. –

Возможно ли, что запись может быть просто ''? или как насчет ''? если так, тогда 'src = [" ']? (?:. */| /)? (. * (?: png | jpg | gif)) (?: \ 1)?. *> ' – gillyspy

import os 
>>> path,file_=os.path.split('http://www.adbongo.com/wp-content/uploads/2013/09/digital-bongo.jpg') 
>>> file_ 
'digital-bongo.jpg'

источник

2013-12-08 03:00:02

...' путь, файл'? никогда не видел такого выражения раньше ... интересный –

отлично! Большое вам спасибо! :) –

Файл с надписью - это зарезервированное слово. Вместо этого следует использовать file_ или другое имя переменной. изменение составляет менее 6 символов, которые SO не разрешает. – Bufke

Использование BeautifulSoup. Это потянет все ссылки; .jpg, .gif, .png и т.д. Вы можете использовать дополнительные кодовые разработки, чтобы получить только JPG или GIF или независимо ...

import urllib2 
from bs4 import BeautifulSoup 

url1 = "http://www.thrashermagazine.com" 
content1 = urllib2.urlopen(url1).read() 
soup = BeautifulSoup(content1) 
for link in soup.findAll('img'): 
    print link.get('src') 
### or alternatively ### 
for link in soup.findAll('img'): 
    stuff = link.get('src') 
    if '.jpg' in stuff: 
     print stuff   #This will only print results with .jpg

* Просто поместите свой URL там. Я использовал это в качестве примера.

источник

2013-12-08 03:02:13 Matt

Имя источник HTML содержание htmlcontent, а затем использовать LXML разобрать страницу:

>>> from lxml import etree 
>>> html = etree.HTML(htmlcontent) 
>>> for node in html.xpath('//img/@src'): 
...  print(node.text.rsplit('/', 1)[1])

источник

2013-12-08 03:09:19 flyer

извлечение имени файла изображения из Интернета

ответ

Смежные вопросы