Я ищу использовать BeautifulSoup4 и либо URLLIB или запросы, чтобы очистить некоторые документы, но некоторые из них имеют & NBSP в вместо обычных пространств. В некоторых из этих документов, есть такие строки следующий:BeautifulSoup4 Преобразование HTML сущности (неразрывный пробел?) Перед началом поиска (Python 3.X)
"Pursuant to the requirements of Section 13..."
, но они могут быть размещены в любом месте, поэтому они должны быть заменены пробелами, например:
"Pursuant to the requirements of Section 13...."
Мне нужно, чтобы заменить их прежде чем я сделать soup.find(), так что-то вроде этого:
#code to get request from server goes here
soup=BeautifulSoup(requestedPage)
#remove nbsp
sectionRequired=soup.find(text=re.compile("Pursuant to the requirements of Section 13"))
Как я смог заменить & NBSP пространства с нормальными пробелами в веб-страницу дО Я использую BS4 найти функцию, поэтому я могу выполнить строковое совпадение в файле soup.find()?
Я реализовал свое затруднительное, но когда я делаю следующий шаг, я получаю TypeError: «NoneType 'объект не является итерируемым. Это означает, что находка не сработала, так что все еще что-то не так. Если вы хотите использовать ссылку, которую я использую, вот ссылка: https://www.sec.gov/Archives/edgar/data/1800/000110465907013496/a07-1583_110k.htm – Retroflux
@Retroflux, см. Edit –
Правильно, поэтому регулярное выражение будет иметь дело с новостями, а unescape - с символами юникода? – Retroflux