2015-12-14 5 views
0

Я пытаюсь проанализировать документы в Elasticsearch с помощью Smart Chinese Analyzer, но вместо получения проанализированных китайских символов Elasticsearch возвращает юникоды этих символов. Например:Умный китайский анализ Elasticsearch возвращает unicodes

PUT /test_chinese 
{ 
    "settings": { 
     "index": { 
      "analysis": { 
       "analyzer": { 
        "default": { 
         "type": "smartcn" 
        } 
       } 
      } 
     } 
    } 
} 

GET /test_chinese/_analyze?text='我说世界好!' 

Я ожидаю, чтобы получить каждый китайский иероглиф, но я получаю:

{ 
    "tokens": [ 
     { 
      "token": "25105", 
      "start_offset": 3, 
      "end_offset": 8, 
      "type": "word", 
      "position": 4 
     }, 
     { 
      "token": "35828", 
      "start_offset": 11, 
      "end_offset": 16, 
      "type": "word", 
      "position": 8 
     }, 
     { 
      "token": "19990", 
      "start_offset": 19, 
      "end_offset": 24, 
      "type": "word", 
      "position": 12 
     }, 
     { 
      "token": "30028", 
      "start_offset": 27, 
      "end_offset": 32, 
      "type": "word", 
      "position": 16 
     }, 
     { 
      "token": "22909", 
      "start_offset": 35, 
      "end_offset": 40, 
      "type": "word", 
      "position": 20 
     } 
    ] 
} 

Есть ли у вас какие-либо идеи, что происходит?

Спасибо!

ответ

0

Я нашел проблему относительно моего вопроса. Кажется, что есть ошибка в Sense. Здесь вы можете найти разговор с Захари Тонгом, Elasticsearch Разработчик: https://discuss.elastic.co/t/smart-chinese-analysis-returns-unicodes-instead-of-chinese-tokens/37133 Вот билет на найденную ошибку: https://github.com/elastic/sense/issues/88

Смежные вопросы