2016-08-29 2 views
1

Я пытался получить название веб-сайтов. Таким образом, я использовал этот фрагмент кода, чтобы сделать этоне удалось очистить текст

sys.stdout = open("test_data.txt", "w") 
    url2 = "https://www.google.com/" 
    headers = { 
     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A'} 
    req = urllib2.Request(url2, None, headers) 
    req.add_header('Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8') 
    html = urllib2.urlopen(req, timeout=60).read() 
    soup = BeautifulSoup(html) 
    # Extract title 
    list1 = soup.title.string 
    print list1.encode('utf-8') 

Это прекрасно работает и дает Google в качестве заголовка и промывает вывод test_data.txt.

Но когда я пытаюсь запустить тот же код, что и веб-сервис, он не работает. Я получаю пустой текстовый файл. Я ударяя этот URL, чтобы запустить этот веб-сервис на моем локальном http://0.0.0.0:8881/get_title

from bottle import route, run, request 

@route('/get_title') 
def get_title(): 
    sys.stdout = open("test_data.txt", "w") 
    url2 = "https://www.google.com/" 
    headers = { 
     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A'} 
    req = urllib2.Request(url2, None, headers) 
    req.add_header('Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8') 
    html = urllib2.urlopen(req, timeout=60).read() 
    soup = BeautifulSoup(html) 
    # Extract title 
    list1 = soup.title.string 
    print list1.encode('utf-8') 

if __name__ == "__main__": 
    run(host='0.0.0.0', port=8881, debug=True) 

Другое дело, которое сделало меня еще более тревожно то, когда я запускаю веб-сервис для msn.com, она хорошо работает для обоих фрагментах (даже веб-службы).

Любая помощь была бы благодарна !!

ответ

-2

Это фляжка? Если это так, вам нужно указать return строку, которую вы хотите отправить пользователю. Оператор print записывает в журнал веб-сервера. Вы должны заменить последнюю строку своей функции get_title следующим образом:

return list1.encode('utf-8') 
+0

, но тогда почему это работает для других URL-адресов, таких как msn.com? – x0v

Смежные вопросы