У меня есть смешанная коллекция файлов документов MS Word. Некоторые файлы являются * .doc, а некоторые - * .docx. Я учусь использовать tm
и Я (более или менее *) успешно создан корпус, состоящий из * .doc файлов с помощью этого:Как создать корпус * .docx файлов с помощью tm?
ex_eng <- Corpus(DirSource('~/R/expertise/corpus/english'),
readerControl=list(reader=readDOC,
language='en_CA',
load=TRUE));
Эта команда не обрабатывает * .docx файлов. Я предполагаю, что мне нужен другой читатель. От this article, я понимаю, что я мог бы написать свои собственные (учитывая хорошее понимание формата .docx, которого у меня сейчас нет).
Чтение readDOC использует antiword для разбора * .doc файлов. Есть ли подобное приложение, которое будет анализировать файлы * .docx?
Или еще лучше, существует ли уже стандартный способ создания корпуса * .docx-файлов с помощью tm?
* больше или меньше, потому что, хотя файлы туда и читаемы, я получаю это предупреждение для каждого документа: In readLines(y, encoding = x$Encoding) : incomplete final line found on 'path/to/a/file.doc'
@BrandonBertelsen: Хорошо, я могу попробовать это. Должен ли я использовать 'tm' или есть лучший пакет? – dnagirl