Список "Stop words" для английского языка?

Я генерирую некоторую статистику для некоторого текста на английском языке, и я бы хотел пропустить неинтересные слова, такие как «a» и «the».Список "Stop words" для английского языка?

Где я могу найти некоторые списки этих неинтересных слов?
Является ли список этих слов таким же, как список наиболее часто используемых слов на английском языке?

обновление: они, по-видимому, называются «стоп-словами», а не «пропускают слова».

источник

2009-08-02 Mark Harrison

Редактирование названия было полностью законным и, что более важно,/сделало его актуальным вопросом /. Зачем вам это делать? Кажется, что кто-то из 13.9k rep сможет рассказать вопрос, как вы знаете, вопрос. – belgariontheking

Как насчет слов, не связанных с английским? – adib

вы можете найти список стоп-слов по адресу http://toolspot.org/list-english-stop-words.php – Sunny

волшебное слово, чтобы положить в Google является «стоп-слова». Это получается a reasonable-looking list.

MySQL также имеет built-in list of stop words, но это слишком полно для моих вкусов. Например, в нашей университетской библиотеке у нас были проблемы, потому что «третий» в «третьем мире» считался стоп-словом.

источник

2009-08-02 07:23:54 Thomas

[nltk] (http://nltk.org) (Natural Language Toolkit, библиотека python) поставляется с множеством ресурсов, включая (Porter et al.), «2400 стоп-слов для 11 языков». Вы можете использовать список заметок независимо от набора инструментальных средств. – alexis

Как получить доступ к этому корпусу из 2400 столов в NLTK? –

http://www.nltk.org/nltk_data/ – Thomas

их называют stop words, проверить этот sample

источник

2009-08-02 07:23:01

Ваша ссылка отсутствует, архив: http://web.archive.org/web/20080501010608/http: //www.dcs.gla.ac.uk/idom/ir_resources/linguistic_utils/stop_words – bobobobo

Получить статистику о частоте слова в больших корпусах txt. Игнорировать все слова с частотой> некоторое число.

источник

2009-08-02 07:24:59

+13

lol, это только то, что я стараюсь избегать! –

Могут быть слова, которые он хотел бы пропустить (поскольку они являются синтаксическим сахаром на английском языке), которые тем не менее не так распространены, как слова, которые он хотел бы сохранить (поскольку они типичны для домена). Тем не менее, я не могу придумать какие-либо блестящие примеры. Может быть, «ты» и «один»? – jprete

Я думаю, что я использовал список заметок для немецкого языка от here, когда я создал поисковое приложение с lucene.net некоторое время назад. На сайте также есть список для английского языка, а списки на сайте - это те, которые проект lucene использует по умолчанию.

источник

2009-08-02 07:59:08

В зависимости от субдомена английского языка, в котором вы работаете, у вас может возникнуть желание составить собственный список стоп-слов. Некоторые общие слова остановки могут иметь смысл в домене. Например. Слово «есть» действительно может быть an abbreviation/acronym in some domain. И наоборот, вы можете игнорировать некоторые специфические для домена слова в зависимости от вашего приложения, которое вы не можете игнорировать в домене общего английского. Например. Если вы анализируете сборник отчетов о больницах, вы можете игнорировать такие слова, как «история» и «симптомы», поскольку они будут найдены в каждом отчете и могут быть не полезны (с простой перспективы ванильного инвертированного индекса).

В противном случае списки, возвращаемые Google, должны быть в порядке. Портер-стеммер uses this и реализация двигателя Lucene seach uses this.

источник

2009-08-05 19:02:56 hashable

Обычно эти слова отображаются в документах с наивысшей частотой. Если у вас есть глобальный список слов:

{ Word Count }

со списком слов, если вы заказали слова из самих высоких Сосчитайте до самого низкого, вы бы графа (граф (у оси) и слово (ось x), которая является обратной лог-функцией. Все стоп-слова будут слева, а точка остановки «стоп-слов» будет находиться там, где существует высшая 1-я производная.

Это решение лучше, чем словарю попытка:

Это решение представляет собой универсальный подход, который не связан язык
Эта попытка узнает, какие слова считаются «стоп-слова»
Эта попытка даст лучшие результаты для очень похожих коллекций и создаст уникальные списки слов для элементов в коллекциях
Стоп-слова могут быть пересчитаны позднее (с этим может быть кеширование и статистическое определение th при остановке слова могут измениться с момента их расчета)
Это также может исключать временные или неформальные слова и имена (например, сленг или если у вас есть куча документов с названием компании в качестве заголовка)

словарь попытка лучше:

время поиска намного быстрее
результаты
Его простой
Некоторые другие придумали слова остановки.

источник

2009-10-30 22:07:14 monksy

Список "Stop words" для английского языка?

ответ

Смежные вопросы