У меня есть набор документов:Удаление игнорируемых слов из пользовательского корпуса в R
documents = c("She had toast for breakfast",
"The coffee this morning was excellent",
"For lunch let's all have pancakes",
"Later in the day, there will be more talks",
"The talks on the first day were great",
"The second day should have good presentations too")
В этом наборе документов, я хотел бы, чтобы удалить стоп-слова. Я уже удалили знаки препинания и преобразуются в нижний регистр, используя:
documents = tolower(documents) #make it lower case
documents = gsub('[[:punct:]]', '', documents) #remove punctuation
Сначала я преобразовать в объект Корпус:
documents <- Corpus(VectorSource(documents))
Затем я пытаюсь удалить стоп-слова:
documents = tm_map(documents, removeWords, stopwords('english')) #remove stopwords
Но эта последняя строка приводит к следующей ошибке:
THE_P ROCESS_HAS_FORKED_AND_YOU_CANNOT_USE_THIS_COREFOUNDATION_FUNCTIONALITY___YOU_MUST_EXEC() для отладки.
Это предложение уже было указано here, но ответа не было получено. Что означает эта ошибка?
EDIT
Да, я использую пакет тм.
Вот выход sessionInfo():
R версия 3.0.2 (2013-09-25) Платформа: x86_64-яблочно-darwin10.8.0 (64-разрядная версия)
Большое спасибо за ваш ответ. Я получаю строку «ошибка должна быть атомным вектором», в строке с stringr :: str_replace_all. Есть идеи, как это решить? – StatsSorceress
Aha! Просто ответил на мой вопрос: documents1 = paste (c (документы)) Вставьте эту строку непосредственно перед разделом stopwords_regex. Еще раз спасибо! – StatsSorceress