мне нужно сделать Term Frequency Map/Reduce с изюминкой:MongoDB Карта Уменьшить Term Frequency с Морфологическими и фразами
- строчных термины
- Отвернуть стопорные слова
- Стволовых слова
- разделены на фразы
- счета каждая фраза
- упорядочить по количеству по алфавиту
Что я имею в виду раскола в фразы выглядят следующим образом: у меня есть название «Дэвид убирает комнату», я хотел бы иметь следующие фразы подсчитаны в результатах:
Дэвид Дэвид убирает Дэвид убирает номера чистит чистит номера номера
Я в настоящее время имеют простые решения, которые не делают никаких фраз, стоп-слова или вытекающие:
var map = function() {
var summary = this.summary;
if (summary) {
// quick lowercase to normalize per your requirements
summary = summary.toLowerCase().split(" ");
for (var i = summary.length - 1; i >= 0; i--) {
// might want to remove punctuation, etc. here
if (summary[i]) { // make sure there's something
emit(summary[i], 1); // store a 1 for each word
}
}
}
};
var reduce = function(key, values) {
var count = 0;
values.forEach(function(v) {
count +=v;
});
return count;
}
Я не уверен, что карта/сокращение mongodb может поддерживать прерывание и останавливать слова из коробки и как собрать все это вместе.
Уточнение: результатом Карты/Уменьшения будет коллекция с условиями и их частотой. Мне нужно постоянно обновлять эту коллекцию (ежедневно), чтобы мы могли видеть наиболее распространенные термины. Я надеюсь запустить начальный M/R, а затем ежедневное обновление последних записей.
Сокращение карты было бы очень плохой способ сделать это, Map Reduce действительно не предназначен для запуска встроенного приложения. Вы должны либо изучить новые возможности FTS MongoDB, либо получить технику FTS – Sammaye
Полнотекстовый поиск позволяет индексировать и искать в коллекции. Но я не уверен, что он может создать коллекцию с термином/счетчиком, с которым я могу работать. – checklist
Для чего вам нужна физическая коллекция, полный текстовый индекс будет выполнять сортировку и все необходимое, вам не нужно будет хранить какие-либо данные самостоятельно – Sammaye