2016-03-15 3 views
2

Я только начал использовать python для своей новой работы, поэтому для меня все довольно сложно, даже если задача звучит довольно прямолинейно.извлечение данных из нескольких xml-файлов с помощью python

Я хотел бы извлечь несколько узлов из нескольких xml-файлов, в лучшем случае помещая информацию в файл excel в конце. Каждая строка должна содержать информацию из одного xml-файла, столбцы должны представлять конкретные узлы, которые я ищу, например «Почтовый код» «город». Не все xml-файлы содержат все узлы, поэтому было бы идеально, если узел «Почтовый код» не существует, он просто оставляет ячейку пустой.

Может ли кто-нибудь указать несколько подсказок, как начать с этого или, это также возможно, специальная программа, которую легко изучить и использовать? Мы с моей компанией должны сделать это только один раз за 2000 файлов.

Большое спасибо =)

+1

Используйте BeautifulSoup4 –

+0

и используйте openpyxl – Jay

ответ

2

Для открытия файлов и получать их содержимое, вы можете использовать функции Python: Documentation.

Для синтаксического анализа XML я всегда использую Beautiful Soup. Это синтаксический анализатор HTML/XML с хорошей документацией, который в основном «просто работает».

Для создания файла Excel вы можете использовать Xlsxwriter.

+0

Спасибо, Даниил, за ваш ответ. Я попробую эти подсказки и, если возможно, вернусь к вам, если у меня будет более конкретный вопрос =) –

Смежные вопросы