Я работаю над вычислением tf-idf в большом документе. Количество слов у меня более 80 000. Я пытаюсь написать разреженную матрицу в файле csv. Я использую код, аналогичный приведенному здесь How to add a new column to a CSV file using Python?Как эффективно писать csv в python?
Выходной файл слишком большой по размеру, превышающий 700 МБ только для 30 000 слов. Итак, мой вопрос заключается в том, как написать его эффективно? Спасибо.
Если вы пишете разреженную матрицу для CSV, вы действительно не можете многое сделать по размеру файла. Будет ли сжатие решить ваши потребности? Вы получите потрясающий коэффициент сжатия с файлом, который в основном является запятыми. –
Кроме того, вы просто пытаетесь сохранить информацию на диск или используете ли вы формат .csv? Если первое верно, у вас есть еще много вариантов. –
@ Давид подумал, что вы рассмотрели все пункты, которые я собирался сделать. Этот вопрос определенно должен быть более четко определен. –