- 0 背景
- 1 相关公司
- 2 Hadoop各个版本历史
- 3 后续不断更新补充
做大数据开发有一段时间了,但是很多专业术语、概念、行业的发展情况都不是很清楚,本文的目的就是总结大数据的发展历程,让自己更清晰这个行业的发展潜力,以及值不值得继续留在这个行业。
1 相关公司- 雅虎:最早开始做大数据的。
- 谷歌:三篇论文Google File System(2003), MapReduce(2004), BigTable(2006) 开启了大数据时代。
- Uber【优步】:美国科技公司,打车软件,开发了数据湖技术Hudi。
- DataBricks:开发了spark,开发了数据湖技术Delta Lake。
- 美国奈飞公司【网飞】:一家会员订阅制的流媒体播放平台 ,总部位于美国加利福尼亚州洛斯盖图,开发了数据湖技术Apache Iceberg。
- 1、2代之间最大的区别在于增加了Yarn(资源调度器);
- 2、3代区别在于增加了命名节点(Name Node)的多活集群模式(单节点最大文件数量3000亿),此外,它支持部分服务的容器化部署、使用“抹除码”【EC】将原来三副本存储利用率不到30%提升到50%多,还增加了GPU支持来方便深度学习算法。



