hive是通过mysql语句进行处理数据,首先我们在客户端写sql语句,把写的sql语句的元数据信息加载到mysql中,mysql和hdfs映射的表结构进行交互,最后通过mapreducer进行处理,显示处理过后的信息,底层数据没有变化,只是把处理的数据显示出来,同样可以把处理过后的数据,保存起来,保存到hdfs底层硬件中,这样以来可以看出hive处理大数据的强大之处。
2,hive自己特有的命令:第一:要想用好hive,就要知道一些有关hive的独有命令,当我们用hive的时候一定不要忘记,hive是和mapreduce在一起运用的,所以hive的的特殊语句也就离开不了关于mapreducer的相关语法了。
1,set mapreduce.job.reduces; 查看reducer的数量,当进行分区排序的时候可以查看(sort by)
2, set mapreduce.job.reduces=3; 手动设置reducer的数量,临时有效。
3,hive理解深入:1,加载本地文件到hive,这个本地的意思是Linux中的数据,(我们要了解不管是hdfs,还是数据库,都是自己在磁盘上开辟空间,把数据存储到开辟的空间里,我想大家会问,那磁盘的就那麽大),首先明确为啥是本地的到hive上,hive的地层又是在hdfs上,那本地的文件最终不就是加载到hdfs上了吗?,有点绕,但是理清一下,本地的文件是不在我们hive的文件目录中的&



