栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Atlas——数据治理工具的使用

Atlas——数据治理工具的使用

一、启动Atlas 1、启动前置环境
  1. 启动Hadoop 集群
  2. 启动Zookeeper 集群
  3. 启动Kafka 集群
  4. 启动Hbase 集群
  5. 启动Solr 集群
2、启动Atlas服务
  1. 进入atlas的bin目录,命令:cd /home/atlas/atlas/bin
  2. 执行启动脚本,命令:./atlas_start.py,等待2min
  3. 访问hadoop01的21000端口
  4. 使用默认账号登录,用户名:admin,密码:admin
二、初次使用时将Hive中元数据导入

Atlas 提供了一个Hive 元数据导入的脚本,直接执行该脚本,即可完成Hive 元数据的
初次全量导入。

1、导入元数据
  1. 使用hadoop01机器,进入到hook-bin目录,命令:cd /home/atlas/atlas/hook-bin
  2. 执行里面的自动化导入脚本,命令:./import-hive.sh
  3. 中途需要输入密码,输入系统自带的账户:admin,密码:admin
  4. 等待系统提示成功
  5. 去Atlas网页,点击右上角的数据展示,验证导入成功
三、血缘关系功能使用 1、在hive上创建两个表
  1. 用hadoop01进入hive
  2. 创建一张订单事实表
CREATE TABLE dwd_order_info ( 
    `id` STRING COMMENT '订单号', 
    `final_amount` DECIMAL(16,2) COMMENT '订单最终金额', 
    `order_status` STRING COMMENT '订单状态', 
    `user_id` STRING COMMENT '用户id', 
    `payment_way` STRING COMMENT '支付方式', 
    `delivery_address` STRING COMMENT '送货地址', 
    `out_trade_no` STRING COMMENT '支付流水号', 
    `create_time` STRING COMMENT '创建时间', 
    `operate_time` STRING COMMENT '操作时间', 
    `expire_time` STRING COMMENT '过期时间', 
    `tracking_no` STRING COMMENT '物流单编号', 
    `province_id` STRING COMMENT '省份ID', 
    `activity_reduce_amount` DECIMAL(16,2) COMMENT '活动减免金额', 
    `coupon_reduce_amount` DECIMAL(16,2) COMMENT '优惠券减免金额', 
    `original_amount` DECIMAL(16,2)  COMMENT '订单原价金额', 
    `feight_fee` DECIMAL(16,2)  COMMENT '运费', 
    `feight_fee_reduce` DECIMAL(16,2)  COMMENT '运费减免' 
) COMMENT '订单表' 
ROW FORMAT DELIMITED FIELDS TERMINATED BY 't';
  1. 创建一张地区维度表
CREATE TABLE dim_base_province ( 
    `id` STRING COMMENT '编号', 
    `name` STRING COMMENT '省份名称', 
    `region_id` STRING COMMENT '地区ID', 
    `area_code` STRING COMMENT '地区编码', 
    `iso_code` STRING COMMENT 'ISO-3166 编码,供可视化使用', 
    `iso_3166_2` STRING COMMENT 'IOS-3166-2 编码,供可视化使用' 
)  COMMENT '省份表' 
ROW FORMAT DELIMITED FIELDS TERMINATED BY 't';
2、使用hive网页功能将数据上传进表中
  1. 访问hive网页,地址:hadoop01ip:9870,点击Utilities下拉菜单的Browse the file system选项
  2. 在搜索栏搜索/user/hive/warehouse/dwd_order_info
  3. 点击右侧上传按钮将数据上传,数据下载地址.
  4. 或者进入hive中使用命令导入
#追加导入
load data local inpath '/home/atlas/1.txt' into table dwd_order_info;
#覆盖导入
load data local inpath '/home/atlas/1.txt' overwrite into table dwd_order_info;
3、根据订单事实表和地区维度表,求出每个省份的订单次数和订单金额
  1. 创建查询结果表
CREATE TABLE `ads_order_by_province` ( 
  `dt` STRING COMMENT '统计日期', 
  `province_id` STRING COMMENT '省份id', 
  `province_name` STRING COMMENT '省份名称', 
  `area_code` STRING COMMENT '地区编码', 
  `iso_code` STRING COMMENT '国际标准地区编码', 
  `iso_code_3166_2` STRING COMMENT '国际标准地区编码', 
  `order_count` BIGINT COMMENT '订单数', 
  `order_amount` DECIMAL(16,2) COMMENT '订单金额' 
) COMMENT '各省份订单统计' 
ROW FORMAT DELIMITED  FIELDS TERMINATED BY 't';
  1. 将查询结果装入结果表中
insert into table ads_order_by_province 
select 
    '2021-08-30' dt, 
    bp.id, 
    bp.name, 
    bp.area_code, 
    bp.iso_code, 
    bp.iso_3166_2, 
    count(*) order_count, 
    sum(oi.final_amount) order_amount 
from dwd_order_info oi 
left join dim_base_province bp 
on oi.province_id=bp.id 
group by bp.id,bp.name,bp.area_code,bp.iso_code,bp.iso_3166_2;
4、查看结果表的血缘关系
  1. 查看总体关系
5、查看表中某一字段的血缘关系
  1. 点击表的Schema
  2. 点击某一字段

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/698747.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号