Я пытаюсь разобрать www.amazon.com
источник HTML следующим образом, используя xml minidom.Ошибка XML-анализа XML minidom
def start_parser(self, analysis_id, url):
dom = None
path = self.create_analysis_folder(analysis_id)
self.get_generated_html(url)
for root, dirs, files in os.walk(path):
for file in files:
if file.endswith('.html'):
dom = parseString(open(path + '/' +file).read())
shutil.rmtree(os.getcwd())
break
return dom
метод делает некоторые основные манипуляции папки, а затем вызывает parseString
придав ему исходный код. Я получаю следующую ошибку при выполнении.
xml.parsers.expat.ExpatError: not well-formed (invalid token): line 20, column 20
Может кто-то пожалуйста, объясните, что это значит и как от нее избавиться.