2013-04-03 3 views
0

В настоящее время у меня есть некоторые немые проблемы, связанные с включением файлов во все подпапки при попытке создать мой корпус.Python NLTK Классифицированный Corpus Creation

CorpusList = CategorizedPlaintextCorpusReader('X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\', r'.*/.txt', cat_file='CAT.txt', cat_delimiter=',') 

Моя проблема заключается в том, что все мои текстовые файлы находятся не в одной папке. Все они находятся в подпапках. Как включить все текстовые файлы в этот каталог и все подкаталоги? Если у меня есть все файлы в папке «TextForAnalysis», тогда все работает только с файлом.

ответ

1

Попробуйте использовать cat_pattern вариант:

CorpusList = CategorizedPlaintextCorpusReader(
    'X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\', 
    r'.*/.txt', 
    cat_file='CAT.txt', 
    cat_delimiter=',', 
    cat_pattern='(.+)/*') 
Смежные вопросы