2016-11-10 2 views
0

искра VectorAssemblerhttp://spark.apache.org/docs/latest/ml-features.html#vectorassembler производят следующий выводискровых вектор трубопровода ассемблера падение другие столбцы

id | hour | mobile | userFeatures  | clicked | features 
----|------|--------|------------------|---------|----------------------------- 
0 | 18 | 1.0 | [0.0, 10.0, 0.5] | 1.0  | [18.0, 1.0, 0.0, 10.0, 0.5] 

, как вы можете видеть, что последний столбец содержит все предыдущие функции. Это лучше/более результативно, если удаляются другие столбцы, например. только ярлык/идентификатор и функции сохраняются или это лишние накладные расходы, и достаточно всего лишь загрузить ярлык/идентификатор и функции в оценку?

Что происходит, когда VectorAssembler используется в трубопроводе? будут использоваться только последние функции или будет ли он вводить колинеарность (повторяющиеся столбцы), если исходные столбцы не удаляются вручную?

+0

, пожалуйста, объясните, почему downvote. –

ответ

1

Прочтите внимательно документацию. Каждый классификатор параметризуется столбцом функций (featuresCol). Он не рассматривает какой-либо другой столбец или порядок столбцов.