Я хотел бы проиндексировать 1 миллион html-документов в Lucene. Мне нужно индексировать в одном документе Lucene несколько html-файлов. В последнее время я хотел бы узнать в ответе поиска оригинальный html-документ.Lucene indexing html documents
Так, например, у меня есть:
1.home.html
2.history.html
3.about.html
4.home2.html
...
Я хочу индексом 1, 2 и 3 в том же документе Lucene. Затем, если я ищу любой текст, я хочу знать исходный документ (домашний, исторический или о).
Я искал в Интернете и нашел Lucene полезная информация. Поэтому я думал об индексировании URL-адреса исходного документа во всех терминах. Это хорошее решение? производительность будет в порядке?
Большое спасибо за помощь.
Вы сохраняете только имена html-файлов или всего содержимого html-файлов? –
Полезная нагрузка может обеспечить приемлемое решение. Хорошим решением было бы сохранить страницы в виде отдельных документов. Почему вы хотите индексировать эти три страницы в одном документе? – femtoRgon
Я храню все содержимое документов, а также хотел бы сохранить название документов. Я уже реализовал решение разделенных страниц, и он работает отлично, но мне нужно искать в группе (например: home, history и about), как я сказал ранее, и единственный способ, которым я нашел, - использовать полезные нагрузки. – Hibernator