Получаю письмо в Microsoft Outlook, которое содержит таблицу html. Я хотел бы проанализировать это в рамке данных pandas.Чтение почты Outlook в формате html
Я уже написал скрипт, который использует красивый суп для синтаксического анализа html-текста в dataframe. Но я борюсь с чтением электронной почты в html в первую очередь.
Обнаружив сообщение, я использую приведенный ниже код, чтобы прочитать его в текстовом файле. Но он пишет текст как/n разделенную строку, а не что-то вроде данных, как я ожидал. Это означает, что я не могу использовать красивый суп, чтобы получить это в кадре данных.
Я нашел много примеров того, как писать и отправлять html-почту, но не как читать ее в формате html. Есть идеи?
contents = msg.Body.encode('ascii', 'ignore').decode('ascii')
contents_file = open("U:\body.txt", "w")
contents_file.write(contents)
contents_file.close()