小白专属:大数据总纲

零、前言

不想告诉你前景.

因为好前景给你的回报是2x.坏前景给你的回报是1x.

而你缺的是走下去的过程.却的是进入前景,走到前景面前的那一个x

建议阅读人群:

大数据入门人员.

才学一两个组件的小白

学习是一件有门槛的事情.尤其是学大数据

——文管家

今天讲一下大数据的总纲。

总纲。就是让你在宏观角度上。看一下这个世界到底长什么样。

而不是简单的告诉你这条路我们有哪些组件需要学。（管家看了很多大数据路线的文章和视频。太干了。。干得我想吐。我想看点灌水的。）

那么，进入话题。

如果你没学java。还是大数据零基础。还不是一本大学的学生。

好家伙。我建议你自己报个培训班（不打任何广告）。这样你大概有10%的概率在一年后入行。而不是看我写路线。

为什么呢？

不是一本的学生。至少证明你的学习能力和自控力大概率上是差了一点的。

指望你自学完大数据的整个流程。概率应该低于3%。

大数据的学习周期你完全可以当成是。每天6h学习。学12个月

如果你确定了要走这条路。

好家伙。管家上面的都是放屁。只管学就好了。

尽管你没基础，java都不会。

那我也建议你先看这篇文章。看完你就明白了。

一、垃圾的采集

大数据。

是指的大量（其实是巨量）的低价值密度的数据冲击而来。

万恶的资本家希望在里面寻求商业价值。

因此招聘我们去发掘里面的价值。只要我们的工资成本低于最后挖掘出来的价值。那么这个行业就会一直发展。

所以你看见的什么xx地图实时堵车的数据。

x宝销量统计。广告投放。大型公司业务报表。银行清算。等。

都跟大数据沾边。

简单来说。我们就是捡垃圾的。只是垃圾实在是太多。有人从垃圾里提炼出石油。所以我们的目标就是提高能力。尽快的成为一个合格的石油提炼工。

那么。石油提炼工需要做些什么呢？是先学怎么用机器提炼。还是先明白？这个职业的作业流程呢？不言而喻。

首先在计算机的世界。垃圾分布在各种终端里。

用户行为日志，公司自己的数据库。合作公司（第三方数据库），从别人网站爬取（偷来的垃圾）。

需要我们自己来采集。

因此这里有个组件需要我们学习，它叫flume。

小管家：”不需要学其他同类的了吗？“

管家：”学一个，会一群。思想大于代码。“

因此这一部分甚至也涉及到前端的配合。如哦里巴巴就需要在安卓app端和网页端都对用户行为进行埋点。

这里有个有趣的点：”网页你是可以观察到鼠标轨迹的。鼠标离开当前网页。在哪里停留都有的。

但是手机app。是没法观测你眼神停留在哪的。只能从点击上分辨。所以如何埋点也是大有学问的。

好家伙，假设前端终于成功的产生了大量的垃圾。

你接下来该考虑什么？去用户家里实地的使用他的垃圾？

管家：”您好，请问你这个垃圾需要清理一下吗？不是。。请问你手机的垃圾需要清理一下吗？“

这样太低效。

我们是不是需要将垃圾收集一下？统一到一个（分布式集群我也成为一个。这是虚指）垃圾场。然后才方便我们处理。

所以。

二、垃圾的传输/收集

我们需要把垃圾收到的‘一个’方便的地方。

这时候。我们需要学习一个组件：kafka。

传输的时候是有一些问题需要我们考虑的。我们有无数的小机器人（代码）来帮我们做事。

他们没法保证不犯错。也没法保证你的垃圾能传了就一定能传到垃圾场。很可能路上失踪。

或者垃圾场临时被扫huang。

那么kafka就是一个被训练（设计）好机器人特工队。他们会解决这中间的传输问题。

在大数据里面，这叫”消息队列“

当然还有一些它没法解决的问题。

道路的宽度是有限的（网络带宽）。资本家是需要花钱的。

我们常常会因为道路的宽度而获取不到足够的垃圾被垃圾经理指着鼻子骂。

于是终于有一天，你明白了。他娘的就不能在垃圾收集终端提前稍微处理一下？（提高了垃圾的价值密度，也就减少了垃圾的体积和重量）

这里就涉及到一个语言：javascript

好消息是：这玩意是前端的。我们不需要学。

小管家：”喜大普奔！“

三、垃圾存储

终于你收集到了足够的垃圾。

然后你发现。垃圾太多了。你仅有的那一个垃圾场。装不下了。小机器人一进来就把垃圾堆门口。也让垃圾难以分类。（垃圾分类是资源，不分类它还是垃圾）

于是。你开始挑选和建立新的垃圾场。

这时候。映入你眼帘的是：hadoop 生态

它的上半身hdfs叫做分布式存储系统。你觉得这玩意不错。可以很多个垃圾场一起存垃圾。还会将你的垃圾进行多个备份。免得垃圾场被飞机滑铲，扫黑除恶啥的。

小明不乐意了。

我数据库不香吗？

垃圾的类型分为三种。{结构化垃圾、半结构化垃圾、非结构化垃圾}

结构化垃圾我们一般存储在mysql中。

而非结构化垃圾。我们就引入了新的大数据存储组件。

hive和hbase

小管家：”结构化数据就不能有组件了？“

个人理解是。结构化数据在千万级别以下。mysql这样的软件足以。数据库工程师可以解决。

千万级别以上。数据库处理的速度就比不上大数据组件了。

回过头来。在总纲里我们只需要简单的将hive理解成为离线计算（离线提炼）做存储的垃圾仓库

把hbase理解成为在线计算或者叫实时计算（实时提炼）做存储的垃圾仓库。

而他们俩，都建立在。hdfs也就是hadoop的基础上。

相当于。hadoop小机器人是一级公民。负责直接操作垃圾。hive和hbase是二级公民。负责操作一级公民。间接操作垃圾。

小管家：”所以我就是n+1级公民被老板操控？！！“

这里补充一个：有时候你会在不同的垃圾场（哪怕他们是挨着的）进行垃圾迁移。

不同的垃圾场对垃圾的摆放有不同的方式。所以我们需要特定的方法来转换。

类似于int转换成string。我们需要知道怎么转换的吗？不需要

所以我们使用sqoop小机器人来进行这个操作。

组件sqoop也是需要我们学习的。

（不会吧不会吧，你不会不知道万恶的垃圾场是需要linux系统“许可证”的吧？）

（linux也是大数据工程师的基础）

终于，历经千辛万苦。你解决了垃圾存储的问题。

现在我们要对垃圾进行处理。什么榨汁，挤压，揉搓，拍打。

小管家：”我怀疑你在开车但是我没有证据！“

我们要对数据进行处理，比如平均，加权，求和，平方，拆分，等数学运算。

四、垃圾计算

大量的垃圾，积累到月末，这时候月末报表是有价值的。于是你需要开始提炼石油了。

于是你又学到了一个组件：hive

好家伙。又是它！

没错。它除了有存储的部分。还算是有计算的部分。（hive 的本质就是用sql的句式来指挥一级公民干活）

说到这。你有没有想到过一个问题？

管家不是说了吗，大数据是指的大量数据。

有没有可能我们的数据装不下了呢？

或者。没有必要一直存储呢？又或者说，我们需要时刻都有数据呢？

所以。我们出现了新的诉求。对计算的时效性要求。

有些时候。石油提炼需要的时间太长。我们无法等待垃圾都到场了才开始提炼。（老板和销售部需要数据的时候，他们不懂技术。他们是不会觉得时间太长是机器不好架构不行。只会觉得。你一天都在摸鱼。。。）

实时垃圾提炼不像做菜。不会等你菜到齐了才开始。

这里引出我们的实时计算框架：flink

也得引出我们的实时又离线的spark streaming

三者有什么区别呢？

管家这个懒人能只说一个的绝对不会说三个。所以他们一定是有说出来的必要性的。

处理垃圾。我们要引入要给概念。

流处理和批处理。

剪头发就像批处理。你头发都是在头上长了很久才剪对吧？管家无法想象。头发张一根就剪一根是什么场景。

流，垃圾就像流水一样向你涌来。

如果你一个一个的处理。我们就把这种叫做垃圾的流处理。

如果你来一批。等一批满了才处理。我们就把这种叫做垃圾的批处理。

hive是批处理的代表。你用了mapreduce就明白。一个任务的时间是20+x 秒。所以快不起来。

flink是流处理的代表。妈妈再也不用担心我捡不好垃圾被组长骂了~

而spark streaming就很神奇了。

就如批处理是等到100w数据处理一次。spark streamin就是等到差不多1000个就处理一次.

你说他流吧，不完全流，你说他批吧。不完全批。

所以。这三者你可以这么理解。分布对应不同的业务场景。

对应的。这三个框架的具体细节你们下去自己看。

好家伙，累了10分钟。你的脑子终于学会了如何捡垃圾。

小管家：“可是我的手不会呀”

现在属于大数据工程师的捡垃圾环境结束了。接下来如何将石油转换成money就要看其他部门的功力了。

五、一些给捡垃圾人的话

如果我的文章有所偏颇。纯属我个人笔力和认知不行。欢迎指出。

如果你有点想杠。我想说：学习这个东西。不是看对方说了多少废话。而是看这些话里有哪些是对自己有用的。能够切实的对自己产生收益。

管家作为还没学完大数据的入门菜鸡。

深感这一行。尽管学习路线很清楚。但的确门槛很高。

相当部分的现今大数据工程师是java后端转岗的。所以你会发现。一上来就是20k的大数据开发工程师。需要的东西特别多。

这就会导致你长时间的学习没有反馈。

而我之所以冒着被喷的风险在文首建议没能力的去培训班。不是让你看重它的教学能力。不是让你看重它吹嘘的包就业。

一个50人的班。培训完毕后。也只有10个人走上这条路。

还推荐你去的原因是。让你有个氛围。不那么迷茫。

就算你失败了。你会知道。做个普通人很容易。3，5k也不难。

但哪怕是头秃的程序员这种高薪。都是有巨大的门槛的。

这种门槛阻碍着现在的你。保护着未来的你。

你想要走下去。没问题。你更需要客观的认知到20k的难度。而不是抱着5k的努力天天抱怨为什么运气好的不是我。

前端时间我也挺焦虑的。

后来明白。焦虑的本质就是幻想不被满足。而自己又无能。

其实就是学得不够。学2-3个月就要比其他行业工资高那么多？

活该我焦虑。

所以，加油吧，骚年。

最后。

欢迎博客关注文管家。

——最懂经济的大数据工程师。

小白专属:大数据总纲

大数据系统相关栏目本月热门文章