2013-02-13 3 views
0

Я хотел спросить, есть ли быстрый способ получить содержимое документа в одном поле документа. Все примеры, которые я видел, имеют относительно короткие строки. Я не могу сохранить всю статью журнала в строку и indexthat, есть ли быстрый способ сообщить lucene индексировать все слова в файле? Я использую Lucene.net 3.03 для этого приложения.Подготовить doc и docx Файлы для индексации Lucene

+1

Может использовать Ifilter для извлечения слов. Вы получаете слова без форматирования. Платный есть Aspose для форматированного текста. – Paparazzi

+0

Каков формат документа и что вы подразумеваете под статьей журнала? – Paparazzi

ответ

0

Существует не простой способ передать только файл, вы должны предоставить весь контент lucene, чтобы сделать индексацию для поиска. Here - это ответ от Q/A об индексировании PDF, но он одинаковый из всех типов документов, просто откройте его и указайте на lucene.

0

Вы можете просто передать System.IO.TextReader на номер Field. Если файл простой текст, или что-то вроде этого, вы просто должны быть в состоянии открыть Ридер на него, и передать его непосредственно в поле, как:

System.IO.TextReader reader = new StreamReader("path/to/my/file.txt"); 
Field field = new Field("fieldName", reader); 
document.add(field); 
+0

Мне нравится эта идея !!! Являются ли читатели доступными на C#, если это так, какое пространство имен мне нужно ссылаться? – TheCodeNovice

+0

Это мой лучший снимок на версии C#. На самом деле это не C# dev, если честно, поэтому, если я что-то испортил, отредактируйте, пожалуйста, свободно. – femtoRgon

Смежные вопросы