Предположим, у меня есть 100 файлов, и все их петли. В каждом файле есть записи нескольких атрибутов: (общее количество атрибутов неизвестно перед чтением всех файлов)Генерировать сводные данные в Python
Предположим, что в простейшем случае, прочитав все файлы, мы получим 20 разных атрибутов и следующую информацию :
File_001: a1, a3, a5, a2
File_002: a1, a3
File_003: a4
File_004: a4, a2, a6
File_005: a7, a8, a9
...
File_100: a19, a20
[Update] Или в другом представлении, где каждая строка представляет собой один матч, между одним файлом и одним атрибутом:
File_001: a1
File_001: a3
File_001: a5
File_001: a2
File_002: a1
File_002: a3
File_003: a4
File_004: a4
File_004: a2
File_004: a6
...
File_100: a19
File_100: a20
Как я могу генерировать «Reverse» таблицу статистики, а именно:
a1: File_001, File_002, File_006, File_083
a2: File_001, File_004
...
a20: File_099, File_100
Как это сделать в Python (2.7.x)? (и с Пандами или без них, я думаю, что Pandas может помочь)
Спасибо! Он отлично работает! Как установить вывод [202] в качестве DataFrame? поэтому я могу экспортировать его в html или csv? Результат, похоже, не имеет метода для экспорта ... –
И если у меня есть оригинальная DF с одним атрибутом на каждой строке, например. 'File_001 a1' (newline)' File_001 a2' (newline) 'File 002 a1' и т. Д. Как настроить составную строку кода для достижения результата желания (как и DF)? –
@JimRaynor, я обновил свой ответ - пожалуйста, проверьте – MaxU