2010-08-04 2 views
1

Я хотел бы создать программу, которая генерирует контент из очень больших XML-файлов размером более 500 МБ. Мне нужно будет получать данные из файлов в разное время, но пользователь готов немного подождать, и все это делается на локальной машине.Анализ, обработка и использование очень больших файлов XML

я womdering если кто-то какие-либо рекомендации в отношении:

языков Осуществление ли х путь достаточно для легкого выполнения запросов на (правда огромный) базы данных Любые другие советы

Я, вероятно, нужно использовать только менее 1% данных, и я не могу ожидать предварительной обработки, чтобы подготовить файл.

Любые советы?

В ответ на комментарий: я могу сломать файл, но только прочитав его и снова напишу. Так что не совсем, по сути. Я использую только один файл, чтобы сгенерировать это «содержимое», используя выбранные (и недетерминированные) записи в указанном файле xml. Тогда мне больше не нужен этот файл.

+0

У вас есть какой-либо контроль над файлом XML? Можете ли вы разбить его на более мелкие кусочки? Как часто вы обрабатываете файл? Вы обрабатываете один и тот же файл более одного раза? –

+0

Вы посмотрели на vtd-xml? –

ответ

1

Я видел в StackOverflow это link что несколько связанных с этим

+0

Спасибо, я тоже это видел. Я не хотел идти на Java, но я думаю, что это лучший вариант. Я проверю это и отчитаю! – mtrc

+0

Хорошо, это так - вроде. В конце концов я остановился на Python и использовал парсер SAX. Я чувствую, что, вероятно, буду строить временную базу данных в будущем, так как чем больше я разрабатываю это приложение, тем больше я нахожусь в поиске богатых поисков данных, но на данный момент - SAX - это путь! – mtrc

Смежные вопросы