Обычно эти слова отображаются в документах с наивысшей частотой. Если у вас есть глобальный список слов:
{ Word Count }
со списком слов, если вы заказали слова из самих высоких Сосчитайте до самого низкого, вы бы графа (граф (у оси) и слово (ось x), которая является обратной лог-функцией. Все стоп-слова будут слева, а точка остановки «стоп-слов» будет находиться там, где существует высшая 1-я производная.
Это решение лучше, чем словарю попытка:
- Это решение представляет собой универсальный подход, который не связан язык
- Эта попытка узнает, какие слова считаются «стоп-слова»
- Эта попытка даст лучшие результаты для очень похожих коллекций и создаст уникальные списки слов для элементов в коллекциях
- Стоп-слова могут быть пересчитаны позднее (с этим может быть кеширование и статистическое определение th при остановке слова могут измениться с момента их расчета)
- Это также может исключать временные или неформальные слова и имена (например, сленг или если у вас есть куча документов с названием компании в качестве заголовка)
словарь попытка лучше:
- время поиска намного быстрее
- результаты
заранее сохраняется в кэше
- Его простой
- Некоторые другие придумали слова остановки.
Редактирование названия было полностью законным и, что более важно,/сделало его актуальным вопросом /. Зачем вам это делать? Кажется, что кто-то из 13.9k rep сможет рассказать вопрос, как вы знаете, вопрос. – belgariontheking
Как насчет слов, не связанных с английским? – adib
вы можете найти список стоп-слов по адресу http://toolspot.org/list-english-stop-words.php – Sunny