Я пробовал искать его здесь и там, но не смог найти ни одного хорошего решения, поэтому, спрашивая экспертов nlp. Я разрабатываю приложение поиска сходства текста, для которого мне нужно сопоставлять тысячи и тысячи документов (около 1000 слов каждый) друг с другом. Для части nlp лучшим вариантом является NLTK (видя его возможности и дружелюбие алгоритма python). Но теперь, когда части речевых тегов сами занимают столько времени, я считаю, что nltk может быть не лучшим образом. Java или C не будут Пожалуйста, обратите внимание, что я уже начал мигрировать с mysql на hbase, чтобы работать с большей свободой на таком большом количестве данных. Но все же существует вопрос, как выполнять algos. быть выбором, но это тоже для машинного обучения, а не для nlp (может быть полезно для распознавания речи) .Какие еще доступны варианты. В gist мне нужна высокая производительность nlp (шаг от высокопроизводительного машинного обучения) (Я немного склонен к Маху, видя будущее использование).Как повысить производительность NLTK? альтернативы?
Речь идет о масштабировании nltk.
NLTK очень медленный; это в основном полезно для прототипирования. Рассмотрим [Gensim] (http://radimrehurek.com/gensim/), это гораздо более масштабируемо. –