У меня есть сценарий, где мне нужно построить многоязычный индекс. специально для двух скриптов, эти два сценария совершенно разные (хинди и английский). поэтому их стволовые клетки и лемматисты не влияют друг на друга. Моя индексация будет огромной, содержащей миллионы документов. от follwing 3, который подходит для индексирования ?? :Подход индексирования Solr
Отдельное поле для двух языков. преимущество - а) поскольку сценарии разные, я могу использовать оба анализатора на нем. b) более быстрый поиск, потому что поля будут ограничены. c) необходимо будет уделить внимание проблеме релевантности.
Поля, специфичные для языка: а) возможно более медленный поиск из-за многих полей.
многоядерный подход: а) проблема при обработке многоязычных документов. б) администрация будет сложной. c) поиск по языку будет простым.
спасибо mbonaci, я не знаю язык данных, который я собираюсь индексировать. есть ли способ динамического обнаружения языка и выбора правильного ядра? –
Обнаружение языка: http://wiki.apache.org/solr/LanguageDetection http://lucidworks.lucidimagination.com/display/solr/Detecting+Languages+During+Indexing –
Спасибо mbonaci. Я проверил обнаружение этого языка. но он неправильно определяет язык. точность в моем случае составляет менее 10%. даже кажется, что он не использует резервное поле. для всего английского контента он обнаруживает язык, который не является белым. Он должен обнаруживать только белые перечисленные языки, и если белый список языков не соответствует ему, он должен возвращаться к резервному языку. любые другие указатели на использование langdetect, кроме вики. предложите ????? –