Я хотел бы прочитать данные HBase в коде Spark stream для поиска и дальнейшего улучшения потоковых данных. Я использую spark-hbase-connector_2.10-1.0.3.jar
.Читайте HBase в Scala - it.nerdammer
В моем коде следующая строка успешно
val docRdd =
sc.hbaseTable[(Option[String], Option[String])]("hbase_customer_profile")
.select("id","gender").inColumnFamily("data")
docRdd.count
возвращает правильный подсчет.
docRdd
имеет тип
HBaseReaderBuilder (org.apache.spark.SparkContext @ 3a49e5, hbase_customer_profile, некоторые (данные), WrappedArray (идентификатор, пол), None, None, List())
Как я могу прочитать все строки в столбцах id, gender
, пожалуйста. Также как я могу преобразовать docRdd
в фрейм данных так, чтобы SparkSQL можно было использовать.
Спасибо @Beryllium. Я попробую это. Я хочу использовать RDD в SparkStream. Надеюсь, он тоже сериализуется. Еще раз спасибо за помощь –
Вам нужна дополнительная помощь по этому вопросу? – Beryllium
Я все установлен на этом. Спасибо.. –