df.agg(countDistinct("member_id") as "count")返回该
member_id列的不同值的数量,而忽略所有其他列,而
df.distinct.count
将计算Dataframe中不同 记录 的数量-其中“ distinct”表示 所有 列的值相同。
因此,例如,Dataframe:
+-----------+---------+|member_name|member_id|+-----------+---------+| a| 1|| b| 1|| b| 1|+-----------+---------+
仅具有一个不同的
member_id值,但具有两个不同的记录,因此该
agg选项将返回1,而后者将返回2。



