1.丰富的数据源
2.信息组织和分析
3.信息交付
4.展示发现和数据洞察
(二)数据湖数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。可以提供:
1.数据科学家可以挖掘和分析数据的环境
2.原始数据的集中存储区域,只需要很少量的转换
3.数据仓库明细历史数据的备用存储区域
4.信息记录的在线归档
5.可以通过自动化的模型识别提取流数据的环境
(三)SBA架构的三个组件1.批处理层。数据湖作为批处理层提供服务、包括近期的和历史的数据
2.加速层。只包括实时数据
3.服务层。提供连接批处理和加速层数据的接口
(四)大数据战略大数据战略必须包括以下评估标准:
1.组织试图解决什么问题,需要分析什么
2.要使用或获取的数据源是什么
3.提供数据的及时性和范围
4.对其他数据结构的影响以及与其他数据结构的相关性
5.对现有建模数据的影响



