2009-08-02 5 views
20

Я генерирую некоторую статистику для некоторого текста на английском языке, и я бы хотел пропустить неинтересные слова, такие как «a» и «the».Список "Stop words" для английского языка?

  • Где я могу найти некоторые списки этих неинтересных слов?
  • Является ли список этих слов таким же, как список наиболее часто используемых слов на английском языке?

обновление: они, по-видимому, называются «стоп-словами», а не «пропускают слова».

+6

Редактирование названия было полностью законным и, что более важно,/сделало его актуальным вопросом /. Зачем вам это делать? Кажется, что кто-то из 13.9k rep сможет рассказать вопрос, как вы знаете, вопрос. – belgariontheking

+0

Как насчет слов, не связанных с английским? – adib

+0

вы можете найти список стоп-слов по адресу http://toolspot.org/list-english-stop-words.php – Sunny

ответ

20

волшебное слово, чтобы положить в Google является «стоп-слова». Это получается a reasonable-looking list.

MySQL также имеет built-in list of stop words, но это слишком полно для моих вкусов. Например, в нашей университетской библиотеке у нас были проблемы, потому что «третий» в «третьем мире» считался стоп-словом.

+2

[nltk] (http://nltk.org) (Natural Language Toolkit, библиотека python) поставляется с множеством ресурсов, включая (Porter et al.), «2400 стоп-слов для 11 языков». Вы можете использовать список заметок независимо от набора инструментальных средств. – alexis

+0

Как получить доступ к этому корпусу из 2400 столов в NLTK? –

+0

http://www.nltk.org/nltk_data/ – Thomas

5

их называют stop words, проверить этот sample

+2

Ваша ссылка отсутствует, архив: http://web.archive.org/web/20080501010608/http: //www.dcs.gla.ac.uk/idom/ir_resources/linguistic_utils/stop_words – bobobobo

4

Получить статистику о частоте слова в больших корпусах txt. Игнорировать все слова с частотой> некоторое число.

+13

lol, это только то, что я стараюсь избегать! –

+0

Могут быть слова, которые он хотел бы пропустить (поскольку они являются синтаксическим сахаром на английском языке), которые тем не менее не так распространены, как слова, которые он хотел бы сохранить (поскольку они типичны для домена). Тем не менее, я не могу придумать какие-либо блестящие примеры. Может быть, «ты» и «один»? – jprete

2

Я думаю, что я использовал список заметок для немецкого языка от here, когда я создал поисковое приложение с lucene.net некоторое время назад. На сайте также есть список для английского языка, а списки на сайте - это те, которые проект lucene использует по умолчанию.

5

В зависимости от субдомена английского языка, в котором вы работаете, у вас может возникнуть желание составить собственный список стоп-слов. Некоторые общие слова остановки могут иметь смысл в домене. Например. Слово «есть» действительно может быть an abbreviation/acronym in some domain. И наоборот, вы можете игнорировать некоторые специфические для домена слова в зависимости от вашего приложения, которое вы не можете игнорировать в домене общего английского. Например. Если вы анализируете сборник отчетов о больницах, вы можете игнорировать такие слова, как «история» и «симптомы», поскольку они будут найдены в каждом отчете и могут быть не полезны (с простой перспективы ванильного инвертированного индекса).

В противном случае списки, возвращаемые Google, должны быть в порядке. Портер-стеммер uses this и реализация двигателя Lucene seach uses this.

2

Обычно эти слова отображаются в документах с наивысшей частотой. Если у вас есть глобальный список слов:

{ Word Count } 

со списком слов, если вы заказали слова из самих высоких Сосчитайте до самого низкого, вы бы графа (граф (у оси) и слово (ось x), которая является обратной лог-функцией. Все стоп-слова будут слева, а точка остановки «стоп-слов» будет находиться там, где существует высшая 1-я производная.

Это решение лучше, чем словарю попытка:

  • Это решение представляет собой универсальный подход, который не связан язык
  • Эта попытка узнает, какие слова считаются «стоп-слова»
  • Эта попытка даст лучшие результаты для очень похожих коллекций и создаст уникальные списки слов для элементов в коллекциях
  • Стоп-слова могут быть пересчитаны позднее (с этим может быть кеширование и статистическое определение th при остановке слова могут измениться с момента их расчета)
  • Это также может исключать временные или неформальные слова и имена (например, сленг или если у вас есть куча документов с названием компании в качестве заголовка)

словарь попытка лучше:

  • время поиска намного быстрее
  • результаты
  • заранее сохраняется в кэше
  • Его простой
  • Некоторые другие придумали слова остановки.
Смежные вопросы