项目概述（基于海量微博数据的仓库构建与舆情热点挖掘项目

1、需求概述

用户需求->系统需求

2、需求分析

系统需求->官方要求系统需求说明书

企业需要的系统原型

3、技术方案和开发计划

技术方案的IO：系统原型->技术方案说明书

开发计划：输入较多较全面，输出是排期表

4、微博的删除

从用户端看是真的被删除了

但是从数据库角度看，都是逻辑删除

CSV格式数据，以逗号分隔

more 文件名空格翻页回车读行

wc -l 文件名看有多少行

ls | wc -l 看有多少个文件

du -sh * | sort 排序

sort -k数字指定字段排序

du -sh -BM * | sort -k1n

du:查看目录的真实大学

-s：summaries，只显示汇总的大小

-h：表示以高可读性的形式进行显示

-BM：以文件大小（以M为单位）

unzip需要参数

管道传的是字符串

5、Shell如何拿到一个文本串的执行结果

用``即可，即将该符号内的所有文本当中shell代码来执行

shell当中如何遍历集合

for do done

实现字符串截取

cut

awk

sed

${}

脚本

#! /bin/bash
#定义相关变量参数
db_name=tangshuo
csv_root_dir_local=../data/csv_data_dir/
csv_root_dir_hdfs=/user/tangshuo/webaodata/
table_name=weibo_origin

#将一个csv目录当中所有csv文件批量加载到hive的指定表的分区中
csv_file_list=`ls $csv_root_dir_local""*.csv`
for file_path in $csv_file_list;do
hdfs dfs -put -f  $file_path $csv_root_dir_hdfs
day_seq=`echo $file_path | awk -F '/' '{print $NF}' | cut -d '.' -f1`
hive -e "
 use $db_name;
 load data inpath '$csv_root_dir_hdfs$day_seq.csv' overwrite into table $table_name partition(day_seq='$day_seq');
"
done

项目概述（基于海量微博数据的仓库构建与舆情热点挖掘项目

大数据系统相关栏目本月热门文章