Я думаю, что все мы знаем this page, но контрольные показатели датированы более двух лет назад. Итак, я хотел бы знать, можете ли вы указать лучший XML-парсер вокруг. Поскольку мне нужен только синтаксический анализатор xml, для меня важнее скорость над всем остальным. Моя задача - обработать некоторые XML-файлы (около 25k) размером 4kb (это будет ежедневная задача). Как вы, наверное, знаете, меня ограничивает 30-секундный тайм-аут запроса. Итак, какой лучший парсер (только Python), который я могу использовать?Что такое эффективный синтаксический анализ xml для GAE (версия Python)?
Спасибо за ваши собеседники.
Edit 01:
@Peter Recore я буду. Сейчас я пишу код и планирую запустить профилирование в ближайшем будущем. Что касается вашего вопроса, ответ - нет. Обработка занимает всего лишь немного времени по сравнению с загрузкой фактического XML-канала. Но я не могу увеличить пропускную способность Google, поэтому сейчас я могу сосредоточиться только на этом.
Моя единственная проблема в том, что мне нужно сделать это как можно быстрее, потому что моя цель - получить моментальный снимок состояния веб-сайта. И, поскольку Интернет жив, и люди продолжают добавлять и изменять свои данные, мне нужен самый быстрый метод, потому что любая вставка данных во время «периода загрузки и обработки» фактически будет противоречить моим статистическим анализам.
Раньше я делал это со своего компьютера, и процесс занял 24 минуты, но теперь на сайте есть в 12 раз больше информации.
Если синтаксический анализ XML доминирует над вашим заданием или поставит вас на ограничение в 30 секунд, вы должны пересмотреть структуру своей задачи. Трудно ответить на этот вопрос, так как это действительно «Каков наиболее эффективный парсер для конкретного ввода?» где вход не определен. – msw
Пожалуйста, опубликуйте результаты того, что вы в конечном итоге используете, поэтому следующий человек может извлечь выгоду из ваших исследований. Кроме того, уверены ли вы, что этап обработки XML этой задачи действительно будет узким местом этих задач? –