2016-12-13 5 views
0

У меня есть обученные модели word2vec в geinsim с размерами 300 и хотелось бы сократить размеры до 100 (просто отбросьте последние 200 размеров). Что является самым простым и эффективным способом использования python?Модель Gensim Word2Vec: размеры выреза

ответ

1

Вы можете сохранить модель вывода в word2vec format. Обязательно сохраните его как текстовый файл (.txt). Формат слова2vec выглядит следующим образом:

Первая строка - <vocabulary_size> <embedding_size>. В вашем случае <embedding_size> будет 300. Остальные строки будут <word><TAB><300 floating point numbers space separated>. Теперь вы можете легко разобрать этот файл на питоне и отбросить последние 200 плавающих точек от каждой из строк. Обязательно обновите <embedding_size> в первой строке. Сохраните это как новый файл (необязательно). Теперь вы можете загрузить этот новый файл в виде новой модели word2vec, используя load_word2vec_format().

Просьба не беспокоить, если это решает вашу проблему.

Смежные вопросы