2015-04-17 3 views
0

Когда я делаю dataimport, он индексирует только один документ, даже если у меня много файлов в папке.импорт данных solr tika не работает должным образом

solrconfig.xml

<requestHandler name="/dataimport" class="solr.DataImportHandler"> 
    <lst name="defaults"> 
     <str name="config">tika-data-config.xml</str> 
    </lst> 
    </requestHandler> 

Schema.xml

<field name="id" type="string" indexed="true" stored="true" multiValued="false" /> 
    <field name="fileName" type="string" indexed="true" stored="true" /> 
    <field name="author" type="string" indexed="true" stored="true" /> 
    <field name="title" type="string" indexed="true" stored="true" /> 

    <field name="size" type="long" indexed="true" stored="true" /> 
    <field name="lastModified" type="tdate" indexed="true" stored="true" /> 
    <field name="text" type="text_general" indexed="true" stored="true" multiValued="true"/> 

-тика данных config.xml

<dataConfig> 
    <dataSource type="BinFileDataSource" /> 
    <document> 
      <entity name="files" dataSource="null" rootEntity="false" 
      processor="FileListEntityProcessor" 
      baseDir="C:\Users\vellianm\Documents\BBRC\SearchEngine\solr-5.0.0\example\exampledocs\Process_documents\6.SCIM" fileName=".*\.(pdf)|(PDF)" 
      onError="skip" 
      recursive="true"> 
       <field column="fileAbsolutePath" name="id" /> 
       <field column="fileSize" name="size" /> 
       <field column="fileLastModified" name="lastModified" /> 
       <entity 
        name="documentImport" 
        processor="TikaEntityProcessor" 
        url="${files.fileAbsolutePath}" 
        format="text"> 
        <field column="file" name="fileName"/> 
        <field column="Author" name="author" meta="true"/> 
        <field column="title" name="title" meta="true"/> 
        <field column="text" name="text"/> 
       </entity> 
     </entity> 
    </document> 
</dataConfig> 

и когда Я нажимаю на dataimport. Я получаю сообщение об успешном завершении, как указано ниже.

Последнее обновление: 15:56:02 Индексирование завершено. Добавлено/Обновлено: 1 документ. Удалено 0 документов. Запросы: 0, Извлечена: 33, пропущено: 0, переработанные: 1 Создана: около 6 часов назад

Здесь надуманные документы 33, но обрабатываются только один. Также я не могу найти ошибку в файле журнала.

INFO - 2015-04-17 09:53:48.957; org.apache.solr.handler.dataimport.DataImporter; Starting Full Import 
INFO - 2015-04-17 09:53:48.959; org.apache.solr.core.SolrCore; [tika] webapp=/solr path=/dataimport params={indent=true&command=status&_=1429264428957&wt=json} status=0 QTime=0 
INFO - 2015-04-17 09:53:48.962; org.apache.solr.handler.dataimport.SimplePropertiesWriter; Read dataimport.properties 
INFO - 2015-04-17 09:53:48.978; org.apache.solr.update.DirectUpdateHandler2; [tika] REMOVING ALL DOCUMENTS FROM INDEX 
INFO - 2015-04-17 09:53:49.124; org.apache.solr.handler.dataimport.DocBuilder; Import completed successfully 
+1

Перейти к Solr администратора, то журналы. Включить режим отладки. Запустите импортер снова, вы увидите больше информации. Надеюсь, это поможет вам больше. – ameertawfik

+0

Спасибо ameertawfik. Я включил и проверил, но нет никакой ошибки для dataimporter. – Mohan

ответ

1

Это работает для меня:

<dataConfig> 
<dataSource type="BinFileDataSource" /> 
    <document> 
     <entity name="files" dataSource="null" rootEntity="false" 
     processor="FileListEntityProcessor"      
     baseDir="/tmp/docs" 
     fileName=".*\.(DOC)|(PDF)|(pdf)|(doc)|(docx)|(ppt)" 
     onError="skip" 
     recursive="true"> 

      <field column="fileAbsolutePath" name="path" /> 
      <field column="fileSize" name="size" /> 
      <field column="fileLastModified" name="lastModified" /> 

      <entity 
       name="documentImport" 
       processor="TikaEntityProcessor" 
       url="${files.fileAbsolutePath}" 
       format="text"> 
       <field column="file" name="fileName"/> 
       <field column="Author" name="author" meta="true"/> 
       <field column="title" name="title" meta="true"/> 
       <field column="text" name="text"/> 
       <field column="fileAbsolutePath" name="path" /> 
       <field column="fileSize" name="size" /> 
       <field column="fileLastModified" name="lastmodified" />      
       <field column="LastModifiedBy" name="LastModifiedBy" meta="true"/> 
      </entity> 
    </entity> 
    </document> 
</dataConfig> 

примечание базовый реж ... котировки противоречат

+2

Проверьте мой перевод с оригинального португальского. (?) Вы должны отредактировать ответ _in English_, если он нуждается в дальнейшем разъяснении. – Mogsdad

Смежные вопросы