2016-08-09 3 views
1

Я очень новичок в больших данных и Tika. Я просто хочу знать, есть ли способ конвертировать документ Word (.doc) в формат JSON. Я слышал, что морфина, использующая java, должна быть закодирована для этого, но я не знаю Java, есть ли какое-либо решение для этого.Как преобразовать документ слова в Json в apache tika

Я буду использовать Tika в Apache SolR.

+0

почему вы хотите, чтобы преобразовать json, или слово содержит строку json? – kuhajeyan

+0

@ kuhajeyan, я хочу использовать Tika внутри Solr. Solr принимает только форматы Json или XML. –

+0

Вы можете индексировать Word Files в Solr. Почему вы хотите преобразовать его в json? – jHilscher

ответ

2

Как следующий вы можете извлечь XML с ToXMLContentHandler, а затем конвертировать в формат JSON

Больше примеров here

public String parseBodyToHTML(InputStream stream) throws IOException, SAXException, TikaException { 
    ContentHandler handler = new BodyContentHandler(
      new ToXMLContentHandler()); 

    AutoDetectParser parser = new AutoDetectParser(); 
    Metadata metadata = new Metadata(); 
    parser.parse(stream, handler, metadata); 
    return handler.toString(); 
} 

другой вариант был бы написать JsonHandler для себя ContentHandler

+0

Большое спасибо. Попробуем это решение и сообщите об этом. –

+0

Спасибо за решение. У меня есть еще один запрос. Мне сказали, что нам нужно иметь морфилин (для написания на Java) для преобразования документов в Json. Не могли бы вы сообщить мне, пожалуйста, ваше мнение? Извините, я очень новичок в этих технологиях, поэтому эти основные вопросы. –

+0

@SijoK, я не сделал для себя ничего, что может задать другой вопрос, который вы можете задать или обновить этот вопрос. вы должны получить помощь от того, кто это сделал. – kuhajeyan

Смежные вопросы