栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

hadoop 实现 Join方法1

hadoop 实现 Join方法1

  1. reduce side join
    reduce side join 是一种最简单的 join 方式,其主要思想如下:
    在 map 阶段,map 函数同时读取两个文件 File1 和 File2,为了区分两种来源的 key/value 数
    据对,对每条数据打一个标签(tag),比如:tag=0 表示来自文件 File1,tag=2 表示来自文件
    File2。即:map 阶段的主要任务是对不同文件中的数据打标签。
    在 reduce 阶段,reduce 函数获取 key 相同的来自 File1 和 File2 文件的 value list, 然后对于
    同一个 key,对 File1 和 File2 中的数据进行 join(笛卡尔乘积)。即:reduce 阶段进行实际的
    连接操作。
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/663636.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号