2013-06-14 2 views
0

Я хотел бы выполнить полнотекстовый поиск по подмножеству dbpedia (который у меня есть в магазине tdb) с lucene и jena.создание полнотекстового индекса поиска для jena и lucene

String TDBDirectory = "path" ; 
Dataset dataset = TDBFactory.createDataset(TDBDirectory) ; 

Но не по всем ресурсам, только над заголовками. Я думаю, что, производя индексы только через нужные тройки, я могу выполнить более быстрый поиск. Например.

<http://de.dbpedia.org/resource/Gurke> <http://www.w3.org/2000/01/rdf-schema#label> "Gurke"@de . 

Здесь я хотел бы искать «Гурко», но не в каких-либо других троек, чем те, со свойством #label. Итак, мой вопрос в том, как мне строить индексы и искать только тройки с #label-свойством? Я уже посмотрел http://jena.sourceforge.net/ARQ/lucene-arq.html, но это недостаточно детально или слишком сложно для меня.

ответ

1

http://jena.sourceforge.net/ старый дом для Jena - проект теперь http://jena.apache.org/ (как же вам удалось найти эту старую страницу?)

Проект недавно представила замену LARQ.

http://jena.apache.org/documentation/query/text-query.html

и это теперь является частью основного кода. Он будет выпущен с выпуском 2.10.2 - на данный момент вы должны использовать сборку разработки от https://repository.apache.org/content/repositories/snapshots/org/apache/jena/. Вам нужно либо использовать Fuseki, либо добавить его в качестве зависимости для вашего проекта.

Эта новая подсистема поиска текста работает с TDB и Fuseki намного лучше.