Как открыть html-файл?

У меня есть html-файл с именем test.html у него есть одно слово בדיקה.Как открыть html-файл?

Я открываю test.html и распечатать его содержимое с помощью этого блока кода:

file = open("test.html", "r") 
print file.read()

но печатает ??????, почему это произошло, и как я могу это исправить?

BTW. когда я открываю текстовый файл, он работает хорошо.

Edit: я попытался это:

>>> import codecs 
>>> f = codecs.open("test.html",'r') 
>>> print f.read() 
?????

источник

2014-12-02 david

Подробнее о unicode, UTF-8 – vks

Вам необходимо открыть файл в формате UTF-8. http://stackoverflow.com/questions/491921/unicode-utf8-reading-and-writing-to-files-in-python –

Если он все еще не работает, просто разместите свою страницу, которую вы пытаетесь обработать. – wenzul

import codecs 
f=codecs.open("test.html", 'r') 
print f.read()

Попробуйте что-то вроде этого.

источник

2014-12-02 06:34:58 vks

не работает, я получил ???? – david

также я пытаюсь использовать codecs.open ("test.html", 'r', 'utf-8'), но когда я печатаю f.read(), я получаю unicode decode error! – david

я использую терминал !! – david

Вы можете прочитать HTML-страницы с помощью 'URLLIB'.

#python 2.x 

    import urllib 

    page = urllib.urlopen("your path ").read() 
    print page

источник

2014-12-02 06:33:50 Benjamin

У меня есть ???? ! – david

Как я могу выполнять операции на 'странице'. ? как чтение определенных слов из него и т. д. Могу ли я использовать 'page' как строку? –

Используйте параметр codecs.open с параметром кодирования.

import codecs 
f = codecs.open("test.html", 'r', 'utf-8')

источник

2014-12-02 07:43:56 wenzul

вы можете использовать следующий код:

from __future__ import division, unicode_literals 
import codecs 
from bs4 import BeautifulSoup 

f=codecs.open("test.html", 'r', 'utf-8') 
document= BeautifulSoup(f.read()).get_text() 
print document

Если вы хотите удалить все пустые строки между ними и получить все слова в виде строки (также избегать специальных символов, цифр) затем также включают в себя:

import nltk 
from nltk.tokenize import word_tokenize 
docwords=word_tokenize(document) 
for line in docwords: 
    line = (line.rstrip()) 
    if line: 
     if re.match("^[A-Za-z]*$",line): 
      if (line not in stop and len(line)>1): 
       st=st+" "+line 
print st

* определяют st как string первоначально, как st=""

источник

2015-12-03 11:09:09

-2

вы можете использовать 'URLLIB' в Python3 же, как

https://stackoverflow.com/a/27243244/4815313 с некоторыми изменениями.

#python3 

    import urllib 

    page = urllib.request.urlopen("/path/").read() 
    print(page)

источник

2016-02-09 13:13:04 Suresh2692

'AttributeError: объект 'module' не имеет атрибута 'request'' –

@ tommy.carstensen может быть, вы должны взглянуть на это [urllib python3] (https://docs.python.org/ 3/library/urllib.request.html # module-urllib.request) – Suresh2692

Спасибо. Я хорошо знаком с этим документом. Отступ неправильный, и он должен быть «import urllib.request». –

Как открыть html-файл?

ответ

Смежные вопросы