в nutch, я ищу способ получить содержание страницы, сформированной как есть (с линиями, новыми строками и параграфами).получить содержание страницы, сформированной так, как она есть в nutch
следующий код не помогает, поскольку он удаляет весь формат страницы.
Parse parse = parseResult.get(content.getUrl());
parse.getText()
даже
BufferedReader br = new BufferedReader(new InputStreamReader(new
ByteArrayInputStream(content.getContent())));
while (br.readLine() != null)
LOG.info("After br: " +br.readLine());
не подходит, так как он возвращает содержимое отформатированный, но с HTML-теги.
Я действительно хочу, чтобы он был в оригинальном формате, чтобы отправить его методу, чтобы он извлек необходимый контент.
Thanks