体量巨大
种类繁多
处理速度快
价值密度低
行业/企业数据
互联网数据
非结构化数据
领域广泛
形式多样
数据规模 数据隐私问题
数据多样性和异构性 数据的访问与共享
数据实时性要求 人机协作问题
数据价值密度低 数据的合理性
商业变革,管理变革,思维变革
大数据的发展趋势我国大数据产业规模稳步增长
政策热度不断上升
融合提速,不均衡现象突出(行业,业务类型,地域分布)
创新与升级
单硬盘存储
磁盘阵列
分布式存储
1.Hadoop是一个在计算机硬件的集群上储存数据,运行应用程序的开源软件框架
2.解决大数据运算的框架方案
3.大规模的存储/计算
4.对于大型job处理速度非常快
5.多种多样的处理引擎
高可靠性
高可扩展性
高效性
高容错性
低成本
适合海量数据储存
适合大数据量批处理
一次写入,多次读取
保证数据一致性
通过多副本提高可靠性
适合海量数据批处理
适合半结构和无结构化数据
性能可能随机器数量线性扩展
Web访问日志分析
可应用于机器学习
基于Hadoop的一个数据仓库工具
操作接口采用类SQL语法,学习成本低
避免了去写MapReduce,开发效率高
适用于海量结构化数据离线分析
Web访问日志分析
可运用于构建离线数据仓库
## 阿里云大数据平台
MaxCompute DataWorks AnaiyticDB DataV QuickBI
PAI



