Spark 3.0.0正式版发布,开发近两年新增了哪些特性? - 大数据 - dbaplus社群:围绕Data、Blockchain、AiOps的企业级专业社群。技术大咖、原创干货,每天精品原创文章推送,每周线上技术分享,每月线下技术沙龙。
介绍较详细。
介绍了 AQE 和 DPP 的来源背景:基于动态统计信息的优化
Spark3.0 新特性(部分) - 知乎
介绍了与数仓模型之间的联系:
基于运行时推断的信息来进一步进行分区裁剪。这在星型模型中很常见,星型模型是由一个或多个并且引用了任意数量的维度表的事实表组成。在这种连接操作中,我们可以通过识别维度表过滤之后的分区来裁剪从事实表中读取的分区。
Apache Spark 3.0.0重磅发布 —— 重要特性全面解析 - 云+社区 - 腾讯云
AQE+DPP+Pandas UDF + R( LSM )



