只需将您的数据导入为
Dataframe并应用所需的汇总即可:
import org.apache.spark.sql.Dataframe;import static org.apache.spark.sql.functions.*;Dataframe df = sqlContext.read() .format("org.apache.spark.sql.cassandra") .option("table", sometable) .option("keyspace", someKeyspace) .load();df.groupBy(col("keyColumn")) .agg(min("valueColumn"), max("valueColumn"), avg("valueColumn")) .show();where
sometable和
someKeyspace分别存储表名和键空间。



