2013-09-19 4 views
0

Я пытаюсь играть с инструментами текстового поиска, которые предлагает язык R, но перед этим я столкнулся со следующей проблемой, так как я работаю на старой машине.Текстовая обработка со слишком большим количеством данных

Я хочу создать матрицу документов с использованием пакета tm и функции Corpus. Когда я создаю DTM, я получаю сообщение об ошибке, которое может выделить память 4 ГБ (у моей машины 2 ГБ памяти). Как вообще вы сталкиваетесь с такой проблемой? Например, в обычных приложениях DTM должен быть намного больше, чем моя матрица. Есть ли способ использовать базу данных SQL вместо использования памяти?

// Я изучил опубликованное сообщение об использовании библиотеки sqldf для создания временной базы данных sqlite. Но в этом случае я даже не могу создать матрицу.

ответ

4

Как вообще вы сталкиваетесь с такой проблемой?

Используйте sparse matrix data structure. Без этого интеллектуальная обработка текста практически невозможна. С одной, я могу обрабатывать 100 единиц из 1000 документов в несколько сотен МБ.

Я не работаю в R самостоятельно, но он обязательно должен иметь разреженный матричный пакет.

+0

Это не очень полезный ответ, потому что матрица документов, созданная пакетом Rm tm, уже является разреженной матрицей: http://www.inside-r.org/packages/cran/tm/docs/as.TermDocumentMatrix – Ben

+0

@Ben: Понятно. Но вопрос OP был «Как вообще вы сталкиваетесь с такой проблемой?» и, видимо, это предложение сработало, поэтому, возможно, сначала они создали плотную матрицу. –

Смежные вопросы