Я установил solr 4.6.0 и следую учебнику, доступному на домашней странице Solr. Все было в порядке, пока мне не нужно делать настоящую работу, которую я собираюсь сделать. Я должен получить быстрый доступ к контенту wikipedia, и мне посоветовали использовать Solr. Ну, я пытался следовать примеру в ссылке http://wiki.apache.org/solr/DataImportHandler#Example:_Indexing_wikipedia, но я не мог получить пример. Я новичок, и я не знаю, что означает data_config.xml!Индексирование wikipedia с solr
<dataConfig>
<dataSource type="FileDataSource" encoding="UTF-8" />
<document>
<entity name="page"
processor="XPathEntityProcessor"
stream="true"
forEach="/mediawiki/page/"
url="/data/enwiki-20130102-pages-articles.xml"
transformer="RegexTransformer,DateFormatTransformer"
>
<field column="id" xpath="/mediawiki/page/id" />
<field column="title" xpath="/mediawiki/page/title" />
<field column="revision" xpath="/mediawiki/page/revision/id" />
<field column="user" xpath="/mediawiki/page/revision/contributor/username" />
<field column="userId" xpath="/mediawiki/page/revision/contributor/id" />
<field column="text" xpath="/mediawiki/page/revision/text" />
<field column="timestamp" xpath="/mediawiki/page/revision/timestamp" dateTimeFormat="yyyy-MM-dd'T'hh:mm:ss'Z'" />
<field column="$skipDoc" regex="^#REDIRECT .*" replaceWith="true" sourceColName="text"/>
</entity>
</document>
</dataConfig>
Не удалось найти в домашнем каталоге Solr. Кроме того, я попытался найти некоторые вопросы, связанные с моими, How to index wikipedia files in .xml format into solr и Indexing wikipedia dump with solr, но они не решили моих сомнений.
Мне кажется, что мне нужно что-то более основное, направляя меня шаг за шагом, потому что учебник запутан, когда дело касается индексации википедии.
Любые советы, чтобы дать некоторые указания, были бы приятными.
Привет @marcelo, спасибо за этот замечательный ответ. Однако я сделал то же самое, но все еще не смог увидеть индексированные документы. Не могли бы вы взглянуть на мой вопрос: http://stackoverflow.com/questions/31566401/how-to-configure-solr-dataimport-handler-to-parse-wikipedia-xml-document – Tanny
@marcelo - Я тоже сталкиваясь с той же проблемой. он не индексирует все поля. пожалуйста, помогите мне за то же самое - http://stackoverflow.com/questions/32628350/solr-dataimporthandler-is-not-indexing-all-data-defined – virus