2014-01-27 5 views
0

У меня есть файл arff, который содержит 700 entries, каждый из 42000+ features для проекта, связанного с НЛП. Сейчас формат находится в плотном формате, но записи могут быть существенно уменьшены, если используется разреженное представление. Я бегу на core 2 duo machine with 2 GB RAM, и я получаю memory out of range eception, несмотря на увеличение лимита до 1536 МБ.работает weka над большим файлом данных arff

Будет ли это иметь какое-либо преимущество, если я преобразую файл arff в разреженное представление или мне нужно будет запустить мой код на гораздо более мощной машине?

ответ

1

В зависимости от внутренней структуры данных алгоритма и способа обработки данных (поэтапно или всего в памяти) потребуется больше памяти или нет. Таким образом, память, которая вам понадобится, зависит от алгоритма.

Так простое представление вам легче, потому что оно компактно, но, как мне известно, для создания модели из одного и того же набора данных алгоритм потребует того же объема памяти. Формат ввода должен быть прозрачным для алгоритма.

Смежные вопросы