概念
Hive 是基于 hadoop 的一个数据仓库工具,可以将结构化数据文件映射为一张表,并提供类sql的查询功能 1 处理的数据存储在HDFS 2 底层实现默认通过Mapreduce 3 执行程序运行在Yarn上 特点: 开发简单,支持用户自定义函数 迭代时算法无法表达 延迟高,不适合处理小数据 调优困难 meta store元信息存储需要将derby存储改为mysql,因为默认的derby只能单一用户同时使用。 安装mysql包和驱动包,修改hadoop xml文件配置mysql信息再启动初始化 元信息如MYSQl会记录文件总条数这些信息。 比如当执行count *命令时,hive直接可以通过元信息返回总记录条数。不用调起MR任务
未完待续



