Я пытаюсь играть с инструментами текстового поиска, которые предлагает язык R, но перед этим я столкнулся со следующей проблемой, так как я работаю на старой машине.Текстовая обработка со слишком большим количеством данных
Я хочу создать матрицу документов с использованием пакета tm и функции Corpus. Когда я создаю DTM, я получаю сообщение об ошибке, которое может выделить память 4 ГБ (у моей машины 2 ГБ памяти). Как вообще вы сталкиваетесь с такой проблемой? Например, в обычных приложениях DTM должен быть намного больше, чем моя матрица. Есть ли способ использовать базу данных SQL вместо использования памяти?
// Я изучил опубликованное сообщение об использовании библиотеки sqldf для создания временной базы данных sqlite. Но в этом случае я даже не могу создать матрицу.
Это не очень полезный ответ, потому что матрица документов, созданная пакетом Rm tm, уже является разреженной матрицей: http://www.inside-r.org/packages/cran/tm/docs/as.TermDocumentMatrix – Ben
@Ben: Понятно. Но вопрос OP был «Как вообще вы сталкиваетесь с такой проблемой?» и, видимо, это предложение сработало, поэтому, возможно, сначала они создали плотную матрицу. –