数据智能集成服务业务(数据的集成)

Big Data & Data Integration 1. PC -> （移动）互联网

2. 移动互联网迅猛发展

移动互联网的到来以及用户行为习惯的变化 -> 新的应用模式、商业模式、营运模式

3. 大数据时代

移动互联网产生大数据大数据优化移动互联网之前的那段历史很精彩之后的未来需要想象力 4. 生活在数据海洋中

5. 互联网的1分钟

传送数据约640TB发布2亿400万封邮件下载4.7万个App亚马逊卖出8.3万美元的货物Youtube视频被查看了130万次Facebook被查看了600万次、Pandora电台播放了总计6.1万小时的歌曲 6. 大数据事实

互联网每天产生1EB =1024PB人类生产的所有印刷材料的数据量200PB=1024TB人类全部数据中，有90%是最近两年内产生的互联网数据平均每2年翻一番还有更多数据无法估量：数据存量越来越大|数据种类越来越多|数据产生越来越快|数据价值越来越大 7. 大数据角力-产界

8. 大数据流程 8.1. 物联网思路复用（第一层次）

富集和整合目标应用各类数据开发面向目标应用的分析套件开发面向目标应用的运维系统

8.2. 数据交叉复用（第二层次）

构建数据平台，提供数据服务构建计算平台，提供计算服务开发统一服务平台，提供面向细分应用的开发平台

9. 大数据的4V特征

9.1. 数据交叉复用

数据是知识的载体数据是有价值的单一数据都是反映某个方面的，意味单一数据价值是低的数据量太大价值密度稀疏的集成思维充分利用数据的互补性

数据是有价值的同一数据可以被多次循环使用同一数据可以为多个目标应用同一数据与多个其他数据搭配

大数据运用在基因工程大数据运用在物联网大数据运用在经济大数据运用在社会学

9.2. 抽样=全体

没有更大的数据支撑，归纳出不合理的结论或者有知识和经验支撑，也能解决这个问题厚数据的盼望

9.3. 效率大于绝对精度

大数据时代学会拥抱混乱大数据的简单算法比小数据的复杂算法更有效一个简单的算法，在数据只有500万时表现得很差，但是数据到达10亿时，它变成了表现最好的，而一个在少量数据下运行最好的算法，却变成了在大量数据条件下运行得最不好的谷歌语料库的内容来自于未经过滤的网页内容，所以会包含一些不完整的句子、拼写错误等各种错误，从某种意义上说，是布朗语料库的一个退步。谷歌语料库是布朗语料库的几百万倍大，这样的优势压倒了缺点，使得谷歌的自然语言处理表现更优秀 9.4. 相关性甚于因果性

不得已而为之相关性发现易于因果性发现已经有用相关性也是知识和洞见技术铺垫相关性的发现为因果发现提供支撑科学伦理不允许带有歧视的视角理解数据

9.5. 数据质量溯源

数据源的可信性及采集方法的正确性，即数据本身质量数据分析流转中误差传递及错误迭代，即数据过程质量

10. 大数据产业

11. 大数据角力

12. 大数据技术框架

12.1. 数据采集层

主流工具有：Informatica、Datastage、OWB、微软DTS、Beeload、Kettle大数据环境下：ELT

12.1.1. 爬虫

12.1.2. 分布式爬虫

12.2. 数据存取层

易扩展高性能数据模型灵活高可用性

图形数据库（graphic database）是利用计算机将点、线、画霹图形基本元素按一定数据结同灶行存储的数据集合

Hbase是一个分布式的、面向列的开源数据库；Hcatalog是apache开源的对于表和底层数据管理统一服务平台MapReduce并行计算框架；Hive数据仓库工具；Pig高级过程语言，查询大型半结构化数据集；

12.3. 数据分析层

Simon认为:如果一个系统能够通过执行某种过程而改进它的性能,这就是学习Minsky认为:学习是在人们头脑中(心理内部)进行有用的变化TomM.Mitchell对于某类任务T和性能度P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么,我们称这个计算机程序从经验E中学习

技术层次：通过分析，从大量数据中寻找其规律的技术商业层次：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法

社会网络指的是社会行动者及其间的关系的集合，强调每个行动者都与其它行动者有或多或少的关系社会网络分析者建立这些关系的模型，力图描述群体关系的结，研究这种结构对群体功能或者群体内部个体的影响社会网络的研究起源于上世纪二三十年代英国人类学的研究

12.4. 计算架构层

Hadoop MapReduceSparkStorm

Map：简单说来，一个映射函数就是对一些独立元素组成的概念上的列表的每一个元素进行指定的操作。Reduce：对Map产生的元素，按一定的规则进行合并操作

基于MapReduce算法实现的分布式计算，拥有类似Hadoop MapReduce所具有的优点中间输出结果可以保存在内存中，不需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法

类似Hadoop的编程计算模型，可以方便地在一个计算机集群中编写与扩展复杂的实时计算默认支持Java、Ruby和Python等容错性：Storm会管理工作进程和节点的故障水平扩展：计算是在多个线程、进程和服务器之间并行进行的可靠的消息处理：Storm保证每个消息至少能得到一次完整处理快速：系统的设计保证了消息能得到快速的处理

GPU 加速是利用一颗图形处理器以及一颗CPU 来加速科学、工程以及企业级应用程序。CPU 由专为顺序串行处理而优化的几个核心组成。另一方面，GPU 则由数以千计的更小、更高效的核心组成，这些核心专为同时处理多任务而设计。GPU计算适用于：计算密集型的程序，易于并行的程序

12.5. 服务平台层

以服务为核心的价值体系

SOA(Service Oriented Architecture，面向服务的体系架构)，解决的是技术平台和架构的问题Web服务、网格/效用计算(Grid & Utility Computing)，解决是服务交付的问题业务流程整合及管理(Business Process Integration & Management)，解决的是业务本身的整合和管理

12.6. 数据质量层

云计算

计算分布在大量的分布式计算机上（未必是本地），并通过计算能力虚拟化和数据虚拟化根据需求弹性分配资源。是分布式处理、并行处理和网格计算的的商业实现

计算虚拟化数据虚拟化云平台管理

一种应用模式一种商业模式一种盈利模式

数据智能集成服务业务(数据的集成)

大数据系统相关栏目本月热门文章