2013-05-16 2 views
1

У меня есть solr 3.6.2, установленный на моей машине, отлично работающий с tomcat. Я хочу индексировать файл дампа википедии, используя solr. Как это сделать с помощью DataImportHandler? Любым другим путем? Я не знаю xml.Индексирование wikipedia dump with solr

Файл, о котором я упоминал, имеет размер около 45 ГБ при извлечении. Любая помощь будет принята с благодарностью.

Update- Я пробовал делать то, что было сказано на странице DataImportHandler. Но есть некоторая ошибка, возможно, потому что их версия solr намного старше.

Мои data.config-

<dataConfig> 
    <dataSource type="FileDataSource" encoding="UTF-8" /> 
    <document> 
    <entity name="page" 
      processor="XPathEntityProcessor" 
      stream="true" 
      forEach="/mediawiki/page/" 
      url="./data/enwiki.xml" 
      transformer="RegexTransformer,DateFormatTransformer" 
      > 
     <field column="id"  xpath="/mediawiki/page/id" /> 
     <field column="title"  xpath="/mediawiki/page/title" /> 
     <field column="revision" xpath="/mediawiki/page/revision/id" /> 
     <field column="user"  xpath="/mediawiki/page/revision/contributor/username" /> 
     <field column="userId" xpath="/mediawiki/page/revision/contributor/id" /> 
     <field column="text"  xpath="/mediawiki/page/revision/text" /> 
     <field column="timestamp" xpath="/mediawiki/page/revision/timestamp" dateTimeFormat="yyyy-MM-dd'T'hh:mm:ss'Z'" /> 
     <field column="$skipDoc" regex="^#REDIRECT .*" replaceWith="true" sourceColName="text"/> 
    </entity> 
    </document> 

схемы (я только добавил части они дали на веб-сайте в мой файл schema.xml)

Ошибка я получаю -

<response> 
<lst name="responseHeader"> 
<int name="status">0</int> 
<int name="QTime">0</int> 
</lst> 
<lst name="initArgs"> 
<lst name="defaults"> 
<str name="config">solr-data-config.xml</str> 
</lst> 
</lst> 
<str name="command">full-import</str> 
<str name="status">idle</str> 
<str name="importResponse"/> 
<lst name="statusMessages"> 
<str name="Time Elapsed">0:0:1.381</str> 
<str name="Total Requests made to DataSource">0</str> 
<str name="Total Rows Fetched">0</str> 
<str name="Total Documents Processed">0</str> 
<str name="Total Documents Skipped">0</str> 
<str name="">Indexing failed. Rolled back all changes.</str> 
<str name="Rolledback">2013-05-17 16:48:32</str> 
</lst> 
<str name="WARNING"> 
This response format is experimental. It is likely to change in the future. 
</str> 
</response> 

пожалуйста, помогите

+0

Я решил ту же проблему в этой ссылке http://stackoverflow.com/questions/20473798/indexing-wikipedia-with-solr. Надеюсь, это поможет. – Marcelo

ответ

2

Простой пост - это неверный способ индексирования Википедии. Вы должны посмотреть в using DataImportHandler instead. DIH поддерживает потоковый импорт.

+0

Ya. Я получил эту часть после некоторых исследований. Тем не менее, я все еще запутался в использовании DataImportHandler. Не могли бы вы дать мне несколько стартеров, пожалуйста? – srjoglekar

+0

Попробуйте выполнить пример сначала, шаг за шагом. Затем вы можете задать конкретный вопрос, который еще не рассмотрен в этом примере. –

+0

@alexandre or all-- Я пытаюсь индексировать wikipedia..but, это не индексирование всех указанных файлов. Пожалуйста, помогите мне за то же самое - http://stackoverflow.com/questions/32628350/solr-dataimporthandler-is-not-indexing-all-data-defined – virus

Смежные вопросы