Как преобразовать линейные частотные распределения из нескольких TXT-файлов в одну матрицу? Каждый из файлов имеет точно такую же структуру, что все слова/термины/фразы находятся в одном порядке и содержатся в каждом файле. Уникальный для каждого файла этого имени файла, дата выдачи и соответствующая частота слов/терминов/фраз, приведенных рядом после «:», видит следующее:Python txt-матрица из нескольких файлов
How my input files look like:
FilenameA Date:31.12.20XX
('financial' 'statement'):15
('corporate-taxes'):3
('assets'):8
('available-for-sale' 'property'):2
('auditors'):23
У меня есть несколько файлов, которые имеют точные одинаковый порядок слов/фраз и только отличаются по частоте (число за «:»)
Теперь я хочу создать один файл, содержащий матрицу, которая сохраняет все слова в качестве верхнего столбца и присоединяет характеристики файла (имя файла, дату и частоты) в виде строк:
Desired Output:
Filename Date ('financial' 'statement') ('corporate-taxes') ... ('auditors)
A 2008 15 3 23
B 2010 9 6 11
C 2013 1 8 4
...
.
.
Действительно оцените любую помощь, было бы здорово иметь цикл, который считывает все файлы из каталога и выводит вышеуказанную матрицу.