У меня есть коллекция книг в формате txt и вы хотите применить к ним некоторые процедуры библиотеки tm
R. Тем не менее, я предпочитаю чистить тексты в bash, а не в R, потому что это намного быстрее.R tm TermDocumentMatrix на основе разреженной матрицы
Предположим, что я могу получить от Баш на data.frame, такие как:
book term frequency
--------------------
1 the 10
1 zoo 2
2 animal 2
2 car 3
2 the 20
Я знаю, что TermDocumentMatrices фактически разреженные матрицы с метаданными. Фактически, я могу создать разреженную матрицу из TDM, используя записи i, j и v TDM TDM для функций i, j и x функции sparseMatrix. Пожалуйста, помогите мне, если вы знаете, как сделать обратный, или в этом случае, как построить TDM, используя три столбца в приведенном выше data.frame. Благодаря!