栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

项目概述(基于海量微博数据的仓库构建与舆情热点挖掘项目

项目概述(基于海量微博数据的仓库构建与舆情热点挖掘项目

1、需求概述

用户需求->系统需求

2、需求分析

系统需求->官方要求系统需求说明书

企业需要的系统原型

3、技术方案和开发计划

技术方案的IO:系统原型->技术方案说明书

开发计划:输入较多较全面,输出是排期表

4、微博的删除

从用户端看是真的被删除了

但是从数据库角度看,都是逻辑删除

CSV格式数据,以逗号分隔

more 文件名 空格翻页 回车读行

wc -l 文件名     看有多少行

ls | wc -l  看有多少个文件

du -sh * | sort 排序

sort -k数字  指定字段排序

du -sh -BM * | sort  -k1n

du:查看目录的真实大学

 -s:summaries,只显示汇总的大小

 -h:表示以高可读性的形式进行显示

-BM:以文件大小(以M为单位)

unzip需要参数

管道传的是字符串

5、Shell如何拿到一个文本串的执行结果

用``即可,即将该符号内的所有文本当中shell代码来执行

shell当中如何遍历集合

for  do  done

实现字符串截取

cut 

awk

sed

${}

脚本

#! /bin/bash
#定义相关变量参数
db_name=tangshuo
csv_root_dir_local=../data/csv_data_dir/
csv_root_dir_hdfs=/user/tangshuo/webaodata/
table_name=weibo_origin

#将一个csv目录当中所有csv文件批量加载到hive的指定表的分区中
csv_file_list=`ls $csv_root_dir_local""*.csv`
for file_path in $csv_file_list;do
hdfs dfs -put -f  $file_path $csv_root_dir_hdfs
day_seq=`echo $file_path | awk -F '/' '{print $NF}' | cut -d '.' -f1`
hive -e "
 use $db_name;
 load data inpath '$csv_root_dir_hdfs$day_seq.csv' overwrite into table $table_name partition(day_seq='$day_seq');
"
done

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/423110.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号