0

Я пытаюсь выполнить анализ компонентов LSA или Principal на очень большом наборе данных, около 50 000 документов и более 300 000 слов/терминов, чтобы уменьшить размерность, чтобы я мог графически отображать документы в 2-й.Как сделать скрытый семантический анализ на очень большом наборе данных

Я пробовал в Python и MATLAB, но в моей системе не хватает памяти и сбоев в обоих случаях из-за тома набора данных. Кто-нибудь знает, как я могу уменьшить нагрузку, или сделать какой-то приблизительный LSA/PCA, который может работать быстрее и эффективнее? Моя общая цель - уменьшение большого размера над словами 300 тыс. Слов.

ответ

0

Вы можете взглянуть на Oja's rule. Он определяет итеративную процедуру изучения СПС. Теперь вам просто нужно реализовать, что вы не загружаете весь набор данных сразу с диска, чтобы предотвратить перегрузку вашей памяти.

Смежные вопросы