EDIT:MLlib пример классификации останавливается на стадии 1
Я попытался с помощью текста из ответа Габриэля и получил спам-функцию: 9 и особенность ветчины: 13. Я попытался изменить HashingTF к numFeatures = 9, то 13 , затем создавали по одному для каждого. Затем программа остановилась на «count at DataValidators.scala: 38», как и раньше.
Выполненные работы (4)
счетчик на 21 (spamFeatures)
счетчик на 23 (hamFeatures)
счетчик на 28 (trainingData.count())
сначала на GeneralizedLinearAlgorithm при 34 (Val модель = lrLearner. запустить (trainingData)
1) Почему особенности подсчитываются линиями, как в коде она раскалывается пробелами (»«)
2) Две вещи, которые я вижу dift из моего кода и кода Габриэля : a) Я не знаю e ничего о logger, но это не должно быть проблемой ...
b) Мои файлы находятся на hdfs (hdfs: //ip-abc-de-.compute.internal: 8020/user/ec2-user/spam.txt), еще раз не должно быть проблемой, но не уверен, есть ли что-то, чего я не вижу ...
3) Как долго мне это нужно? Я разрешил ему работать как минимум 10 минут: local [2] ..
Я предполагаю, что в этом случае это может быть какая-то проблема с моей установкой Spark/MLlib? Есть ли еще более простая программа, которую я могу запустить, чтобы проверить, есть ли проблема с MLLib? Я смог запустить другие искровые поточные/sql задания berfore ...
Спасибо!
[с искровым повторно отправил сообщества]
Привет всем,
Я пытаюсь запустить этот пример MLlib от обучения Spark: https://github.com/databricks/learning-spark/blob/master/src/main/scala/com/oreilly/learningsparkexamples/scala/MLlib.scala#L48
Вещи, которые я делаю по-другому:
1) вместо их spam.txt и normal.txt у меня есть текстовые файлы с 200 словами ... ничего огромного и просто текстовый, с периодами, запятыми и т. Д.
3) Я использовал numFeatures = 200, 1000 и 10000
Ошибка: Я продолжаю застревать, когда я пытаюсь запустить модель (на основе от детали от УИ ниже):
VAL модель = новый . LogisticRegressionWithSGD() бежать (trainingData)
Он замерзнет на что-то вроде этого:
[Стадия 1: ==============> (1 + 0)/4 ]
Некоторые детали от webui:
org.apache.spark.rdd.RDD.count(RDD.scala:910)
org.apache.spark.mllib.util.DataValidators$$anonfun$1.apply(DataValidators.scala:38)
org.apache.spark.mllib.util.DataValidators$$anonfun$1.apply(DataValidators.scala:37)
org.apache.spark.mllib.regression.GeneralizedLinearAlgorithm$$anonfun$run$2.apply(GeneralizedLinearAlgorithm.scala:161)
org.apache.spark.mllib.regression.GeneralizedLinearAlgorithm$$anonfun$run$2.apply(GeneralizedLinearAlgorithm.scala:161)
scala.collection.LinearSeqOptimized$class.forall(LinearSeqOptimized.scala:70)
scala.collection.immutable.List.forall(List.scala:84)
org.apache.spark.mllib.regression.GeneralizedLinearAlgorithm.run(GeneralizedLinearAlgorithm.scala:161)
org.apache.spark.mllib.regression.GeneralizedLinearAlgorithm.run(GeneralizedLinearAlgorithm.scala:146)
$line21.$read$$iwC$$iwC$$iwC$$iwC.<init>(<console>:33)
$line21.$read$$iwC$$iwC$$iwC.<init>(<console>:38)
$line21.$read$$iwC$$iwC.<init>(<console>:40)
$line21.$read$$iwC.<init>(<console>:42)
$line21.$read.<init>(<console>:44)
$line21.$read$.<init>(<console>:48)
$line21.$read$.<clinit>(<console>)
$line21.$eval$.<init>(<console>:7)
$line21.$eval$.<clinit>(<console>)
$line21.$eval.$print(<console>)
sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
Я не уверен, что я делаю неправильно ... любая помощь очень ценится, спасибо!
Спасибо, Габриэль за подробное объяснение. Пара последует за вопросами, так как я еще не смог запустить программу ... не могли бы вы проверить мое редактирование в главном вопросе, так как его трудно спросить в комментарии? Большое спасибо. – SparkKafkaSetup
Не могли бы вы поделиться своим файлом pom.xml? Спасибо – SparkKafkaSetup