Я хотел спросить, есть ли быстрый способ получить содержимое документа в одном поле документа. Все примеры, которые я видел, имеют относительно короткие строки. Я не могу сохранить всю статью журнала в строку и indexthat, есть ли быстрый способ сообщить lucene индексировать все слова в файле? Я использую Lucene.net 3.03 для этого приложения.Подготовить doc и docx Файлы для индексации Lucene
ответ
Существует не простой способ передать только файл, вы должны предоставить весь контент lucene, чтобы сделать индексацию для поиска. Here - это ответ от Q/A об индексировании PDF, но он одинаковый из всех типов документов, просто откройте его и указайте на lucene.
Вы можете просто передать System.IO.TextReader
на номер Field
. Если файл простой текст, или что-то вроде этого, вы просто должны быть в состоянии открыть Ридер на него, и передать его непосредственно в поле, как:
System.IO.TextReader reader = new StreamReader("path/to/my/file.txt");
Field field = new Field("fieldName", reader);
document.add(field);
Мне нравится эта идея !!! Являются ли читатели доступными на C#, если это так, какое пространство имен мне нужно ссылаться? – TheCodeNovice
Это мой лучший снимок на версии C#. На самом деле это не C# dev, если честно, поэтому, если я что-то испортил, отредактируйте, пожалуйста, свободно. – femtoRgon
- 1. Удалить файлы Doc и сохранить файлы Docx
- 2. PHP как открыть файлы .doc и .docx?
- 3. Производительность индексации Lucene
- 4. Solr/Lucene test query agains doc без индексации
- 5. Lucene Analyzer для индексации и поиска
- 6. Чтение файлов DOC и DOCX в C#
- 7. Оптимизация индексации lucene 5.2.1
- 8. Оптимизировать Lucene партия индексации
- 9. Какова структура файлов .docx и .doc?
- 10. Ошибка в файле .doc и .docx
- 11. Преобразование .doc/docx в html
- 12. php upload pdf, doc, docx
- 13. Показать doc/docx с AngularJS и Mongoose
- 14. PHP Загрузить форму, PDF, Doc и Docx
- 15. Сброс или очистка индексации Lucene
- 16. Подготовить свежие документы с Lucene
- 17. Дата Формат для индексации в lucene
- 18. Возможно ли прочитать файлы Word (.doc/.docx) в Python
- 19. Как показать doc, docx файлы на android от любой библиотеки?
- 20. Запрос токенов lucene без индексации
- 21. Как выбрать только файлы doc, docx через намерение?
- 22. Загрузка файла doc и docx в codeigniter
- 23. Parse Word (.doc /.docx) document
- 24. загрузить doc, docx, pdf файлы на сервере с помощью php
- 25. Как читать .doc, .docx, .xls файлы в android
- 26. избегать индексации документов снова Lucene
- 27. Есть ли способ читать файлы Doc на PHP, подобные Docx?
- 28. docusign api не загружает файлы docx или doc
- 29. OpenXML-преобразование .docx в .doc
- 30. Как преобразовать doc, docx файлы в pdf в java programatically
Может использовать Ifilter для извлечения слов. Вы получаете слова без форматирования. Платный есть Aspose для форматированного текста. – Paparazzi
Каков формат документа и что вы подразумеваете под статьей журнала? – Paparazzi