2016-01-06 2 views
0

Как взять количество строк списка, которое находится в документе Word? Если тот же список находится в excel, я могу взять счет, используя агрегированный оператор, но в текстовом документе этого не происходит.Принимать счет в Rapidminer

ответ

0

RapidMiner не может легко читать документы Word. Вы должны сохранить документ в виде текстового файла и использовать Read CSV-оператор для чтения файла.

1

Я рекомендую ответ от @awchisholm, поскольку это самое простое решение. Однако, если у вас есть несколько текстовых документов, это может стать непрактичным. В этом случае вы можете использовать оператор Loop Zip для распаковки словарного документа и поиска внутри файла /word/document.xml и использования текстовых функций RapidMiner (или Read XML) для каждого экземпляра <w:p ...>...</w:p>, это представляет собой новую строку, чтобы вы могли подсчитать их оттуда.

Существует также XML-документ в распакованном каталоге под названием /docProps/app.xml, который вы можете прочитать здесь, чтобы найти метаинформацию о документе, такую ​​как количество слов, символы & страниц. К сожалению, я обнаружил, что это ненадежное количество строк, поэтому я рекомендую использовать тег <w:p> для поиска.

Смежные вопросы