On Spark 2.0.0, если бы у меня была база данных, где я постоянно использую таблицу A для объединения с другими таблицами, должен ли я сохранять свою таблицу A и присоединяться к этому пути? Или я должен использовать подход Spark SQL для задания запроса присоединения A и B, A и C и т. Д.?Какова наилучшая практика для запроса данных с помощью Spark SQL?
И если я хочу, чтобы запрос к таблице Z несколько раз, используя, где условный т.е.
SELECT * FROM Z where z_id = '1'
и
SELECT * FROM Z where z_id = '2'
Должен ли я использовать Спарк SQL и явно это запрос для него, или запрос для таблицы и действия на столе RDD?
Если вы используете rdd или dataframe более одного раза, я бы сказал, что всегда полезно использовать persist(). Вы должны попробовать, прежде чем спрашивать! – GwydionFR