With your perfect help here Я уже выяснил, как вычислить трендовые темы (стандартная оценка + плавающая средняя).Тематические термины: термины с одним словом vs слагаемые термины
Моя следующая проблема: у меня есть термины (состоящие из 1-3 слов) в моей базе данных, связанные со временем их упоминания. Но трендовые темы всегда состоят только из слов с 1 словом, поскольку одна часть термина ВСЕГДА упоминается чаще, чем полный термин. Пример: Вчера 3 статьи новостей были о «Бараке Обаме» и сегодня 148. Тогда «Барак Обама» растет, конечно. Но «Барак» также растет, и поэтому это тема.
Как включить длину слова при вычислении трендовых тем? Я не хочу использовать другой алгоритм, я полностью доволен алгоритмом выше. Могу ли я умножить счет всех двухсловных терминов с 1,5 или около того?
Подробный пример: Мои основные тенденции: Microsoft, Китай, Хиллари Клинтон, Даллас Маверикс. Я хотел сказать, что «Хиллари Клинтон» и «Даллас Маверикс» никогда не занимают ни одного или ни одного 2, потому что это термины с двумя словами. «Microsoft» и «Китай» - это слова с одним словом, поэтому они всегда оцениваются лучше. Есть ли возможность решить эту проблему?
Надеюсь, вы можете мне помочь. Заранее спасибо!
спасибо! Очень просто, но это работает! :) К сожалению, он охватывает только один случай. В другом случае мои главные тенденции: Microsoft, Китай, Хиллари Клинтон, Даллас Маверикс. Я хотел сказать, что «Хиллари Клинтон» и «Даллас Маверикс» никогда не занимают ни одного или ни одного 2, потому что это термины с двумя словами. «Microsoft» и «Китай» - это слова с одним словом, поэтому они всегда оцениваются лучше. Есть ли возможность решить эту проблему? – caw
Я не уверен, почему это так. С помощью метода, который я дал вам (добавив часть тренда из подкомпонентов), вы можете достичь такого же эффекта, как и постоянный мультипликатор, за исключением того, что мультипликатор зависит от тенденций субкомпонентов. Возможно, увеличение мультипликаторов будет делать трюк, но вы должны быть осторожны, чтобы не пытаться слишком сильно сгибать данные. Вы можете отдать должное неправильным тенденциям (глупый пример: кто-то, чье имя MacDonald выиграет слишком много от банкротства MacDonald's и получит более высокую тенденцию, чем просто из-за его имени). И здесь не осталось места для такой удачи. – glmxndr
Недостаточно репутации, чтобы прокомментировать ответ AviD, поэтому я делаю это здесь: формула AviD (почти) правильная. Вы объясняете тенденцию (Барак Обама), потому что она содержится дважды: один раз в тренде (Барак) и один раз в тренде (Обама) (подсчет всех случаев «Барака» содержит все вхождения «Барака Обамы», то же самое для подсчета «Обамы», , поэтому дважды «Барак Обама»). Но, чтобы быть полностью точным, вы должны также вычесть все вхождения «Обамы Барак», который также содержится дважды. Проблема заключается в том, что AviD также учитывает тенденции от «Эхуда Барака» (неправильно использовавшиеся для примера) и «Мишель Обама». – glmxndr