Я относительно новичок в программировании на Java и пытаюсь создать приложение, которое поможет некоторым коллегам.Java, как извлечь текст из большого файла и импортировать его в файл меньшего размера
Основой того, что я пытаюсь сделать, является чтение содержимого большого файла, вплоть до, возможно, более 400 000 строк, который содержит XML, но не является допустимым XML-документом, как своего рода журнал.
Что я пытаюсь сделать, это создание приложения, в котором пользователь вводит уникальный идентификатор, тогда он сканирует документ, чтобы узнать, существует ли он, если это так, и часто уникальный идентификатор происходит несколько раз в произведенном XML, то я хочу вернуться назад к идентификатору узла <documentRequestMessage>
, а затем скопировать все с этого узла на его закрывающий узел и поместить его в собственный документ.
Я знаю, как создать новый документ, но изо всех сил пытаюсь выяснить, как по существу «найти назад» и скопировать все в закрывающий тег, любая помощь, которую очень ценят.
EDIT
К сожалению, я не смог понять, как реализовать любой из 3-х предложений до сих пор.
correId - единственная ссылка, упомянутая ранее.
текущий код у меня есть, который работает и выводит результаты на консоль, является
String correlationId = correlationID.getText();
BufferedReader bf = new BufferedReader(new FileReader(f));
System.out.println("Looking for " + correlationId);
int lineCount = 0;
String line;
while ((line = bf.readLine()) != null) {
lineCount++;
int indexFound = line.indexOf(correlationId);
if (indexFound > -1) {
System.out.println("Found CorrelationID on line " + "\t" + lineCount + "\t" + line);
}
}
bf.close();
дальнейшей помощи признательно оценили, я не прошу кого-то написать для меня, только некоторые действительно четкие и основные инструкции :) Пожалуйста
EDIT 2
копия файла, который я пытаюсь читать и извлекать из можно найти here
Вопрос - откуда вы знаете, что это недействительный XML? Можете ли вы опубликовать образец того, что «недействительно»? –
@SeanBright причина, по которой я знаю, что это недействительно XML, потому что 1) XMLSpy не проверяет его. 2) Он содержит несколько Xml version = "1.0" encoding = "UTF-8"?> (585 записей)! 3) Плюс также комментарии, которые, как я считаю, не являются правильными комментариями XML, например [2013-05-29 12: 18: 57,626] По умолчанию: 4 '' # DocumentCompositionLogger sca.component.mediation.java.Custom1322734159344 INFO - requestDocumentProductionPackG02 запрос полезной нагрузки получил >>>>>> Я скопировал файл сюда, чтобы вы могли увидеть весь документ, который я пытаюсь прочитать, который можно найти здесь (http://db.tt/Sw0C4tWL) – Chris
@ Предложение Гилберта кажется очень простым, можете ли вы сказать, какие проблемы у вас есть с его внедрением? – Vitaliy