2014-02-13 2 views
0

У меня проблема с Python с BeautifulSoup. Мне нужно извлечь все файлы на странице, которые заканчиваются на «.php», но они также должны быть локальными файлами. Они не могут быть с другого сайта. Это то, что у меня есть до сих пор:Python BeautifulSoup Извлечение ссылок PHP

Здесь я застрял на том, что делать. Я думаю, используя soup.findall, чтобы получить все теги «href».

+0

Это хорошее начало ... затем процеживают на 'href's :) –

ответ

1

Попробуйте, как это,

page=urllib2.urlopen(url) 
soup=BeautifulSoup(page.read()) 

for a in soup.findAll('a'): 
    if a['href'].endswith('.php'): 
    print a['href'] 
1
import glob,os 
path=input("Enter Your Path in "" =")+"//" 
print path 
for i in glob.glob(os.path.join(str(path),"*.php")): 
        print i 
Смежные вопросы