Мне нужно выполнить вычисления и манипуляции на чрезвычайно большой таблице или матрице, которая будет иметь примерно 7500 строк и 30000 столбцов.Представление гигантской матрицы/таблицы
Данные матрицы будут выглядеть следующим образом:
Document ID | word1 | слово 2 | слово 3 | ... | слово 30000 | Класс документа
0032 1 0 0 1 P
Другими словами, подавляющее большинство ячеек будет содержать логические значения (0 и 1).
Расчетов, которые необходимо сделать, будет использованияКонтактным слово, вытекающего или выбор функции (уменьшение количества слов с помощью методов сокращения), а также расчеты в класс или за слова и т.д.
Что я имеют в виду проектирование модели ООП для представления матрицы, а затем последующую сериализацию объектов на диск, поэтому я могу повторно использовать их позже. Например, у меня будет объект для каждой строки или каждого столбца или, возможно, объект для каждого пересечения, который содержится в другом классе.
Я думал о представлении его в XML, но размеры файлов могут оказаться проблематичными.
Возможно, я сижу в горшке с моим подходом - Я по правильному пути, или были бы более эффективные подходы к управлению такими большими коллекциями данных.
Ключевыми проблемами здесь будут производительность (время реакции и т. Д.), А также избыточность и целостность данных, и, очевидно, мне нужно будет сохранить данные на диске.
Пожалуйста, не прикрепите свои заголовки к «C#» и тому подобное. Для этого нужны теги. –
Является ли это матрицей номеров 7500 x 30000, или она представляет собой нечто более сложное? Любой хороший ответ на ваш вопрос зависит от большего количества информации о содержании и структуре этой таблицы или матрицы. –
Столбцы 29998 будут содержать либо 1, либо 0, а остальные два будут содержать строки. – petestar