У меня есть корпус из 26 текстовых файлов, каждый между 12 - 148kb, всего 1.2Mb. Я использую R на ноутбуке Windows 7.Максимальный разумный размер для стволовых запасов в тм?
Я сделал все обычные вещи для очистки (стоп-слова, пользовательские стоп-слова, строчные буквы, цифры) и хочу выполнить завершение стебля. Я использую исходный корпус в качестве словаря, как показано в примерах. Я попробовал несколько простых векторов, чтобы убедиться, что он будет работать вообще (с примерно 5 терминами), и это произошло и очень быстро.
exchanger <- function(x) stemCompletion(x, budget.orig)
budget <- tm_map(budget, exchanger)
Он работает со вчерашнего дня в 16:00! В R Studio при диагностике в журнале запросов отображаются новые запросы с разными номерами запросов. Диспетчер задач показывает это, используя некоторую память, но не сумасшедшую сумму. Я не хочу останавливать его, потому что, если он почти там? Любые другие идеи о том, как проверить прогресс - это неустойчивый корпус, к сожалению? Идеи о том, как долго это займет? Я подумал об использовании вектора имен dtm в качестве словаря, отрезанного с наиболее частой (или высокой tf-idf), но я не хочу убивать этот процесс.
Это обычный ноутбук с Windows 7 с большим количеством других вещей.
Является ли этот корпус слишком большим для stemCompletion? Не доходя до Python, есть ли лучший способ сделать stemCompletion или lemmatize vice stem - мой поиск в Интернете не дал никаких ответов.
спасибо за этот ответ - не удобно с messing с источником ... но могу ли я поместить эти команды в скрипт в окне сценария RStudio? Думаю, только если я поставлю полный источник, что по существу похоже на редактирование источника и сохранение? – ChristinaP
Ты совершенно прав. Скопируйте полную функцию из источника в отдельный скрипт, а затем внесите изменения. Каждый раз, когда вам нужно его использовать, загрузите пакет, затем загрузите свою настраиваемую функцию, чтобы заменить загруженную из пакета. – SchaunW