2012-01-30 3 views
0

в nutch, я ищу способ получить содержание страницы, сформированной как есть (с линиями, новыми строками и параграфами).получить содержание страницы, сформированной так, как она есть в nutch

следующий код не помогает, поскольку он удаляет весь формат страницы.

Parse parse = parseResult.get(content.getUrl());  
parse.getText() 

даже

BufferedReader br = new BufferedReader(new InputStreamReader(new 
ByteArrayInputStream(content.getContent()))); 
while (br.readLine() != null) 
LOG.info("After br: " +br.readLine()); 

не подходит, так как он возвращает содержимое отформатированный, но с HTML-теги.

Я действительно хочу, чтобы он был в оригинальном формате, чтобы отправить его методу, чтобы он извлек необходимый контент.

Thanks

ответ

0

Нет прямого способа сделать это.

Изучите и внесите изменения src\java\org\apache\nutch\segment\ContentAsTextInputFormat.java в соответствии с вашими потребностями.

Смежные вопросы