何为大数据_大数据系统

何为大数据，广义上是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征，从而做出提升效率的决策行为。狭义上，大数据是通过获取、存储、分析，从大容量数据中挖掘价值的一种全新的技术架构。定义表明大数据是那些拥有一系列关键特征的数据：容量、速度、多样性、低价值密度和真实性但也包括穷举性、分辨率、索引性、相关性、扩展性和可扩展性然而，这些定义缺乏本体论的清晰度，该术语充当了广泛选择的数据的无定形、包罗万象的标签。我认为大数据大体上可以用5个“V”定义。5V是指具有海量(Volume)、多样(Variety)、时效(Velocity)、精确(Veracity)和价值(Value)这5种特征的数据

大数据研究是近几年信息处理领域最热门的研究方向，已经引起了工业界、学术界乃至政府部门的高度关注.大数据之所以备受关注，是因为大数据里面蕴藏着巨大的价值.如何把蕴藏在大数据中的价值挖掘出来，为企业或政府部门提供决策支持具有重要的意义.大数据给传统的机器学习带来了许多挑战，这些挑战可以从大数据的5个特征或从5个不同的角度进行分析解读。

Volume：释义大量；即采集、存储和计算的数据量都非常大。在广义的计算机存储计量单位上，其存储单位有bit、B、KB、MB、GB、TB等。因为目前计算机都是二进制的所以用2的整数次幂来计算是最方便的。我们以2的十次方：1024为换算率。所以

1 Byte(B) = 8 bit

1 Kilo Byte(KB) = 1024B

1 Mega Byte(MB) = 1024 KB

1 Giga Byte (GB)= 1024 MB

1 Terga Byte(TB)= 1024 GB

而但真正大数据的起始计量单位往往是TB（1024GB）、PB（1024TB）。如此以来，大数据数据量之大可见一斑。

Velocity：高速；即数据增长速度快，处理速度快，时效性高。大数据区别于传统数据挖掘最显著的特征是能够用个性化算法去即时推荐给到具体某一个用户。大数据算法有18大数据挖掘的经典算法以及代码实现，涉及到了决策分类，聚类，链接挖掘，关联挖掘，模式挖掘等；

Apriori-关联规则挖掘算法 AdaBoost-装袋提升算法 KNN-k最近邻算法工具类 ID3-决策树分类算法 BIRCH-层次聚类算法 NaiveBayes-朴素贝叶斯算法 FPTree-频繁模式树算法 CART-分类回归树算法 HITS-链接分析算法法 GSpan-频繁子图挖掘算法 KMeans-K均值算法 CBA-基于关联规则的分类算法 GSP-序列模式分析算法 SVM-支持向量机算法 RoughSets-粗糙集属性约简算法 EM-期望最大化算法 PrefixSpan-序列模式分析算法 PageRank-网页重要性/排名算法

在给定的资源约束下，以大数据为输入，在给定时间约束内可以生成满足给定约束结果的算法。不同研究和业务的要求不同。如科学研究可能允许几个月的计算时间，但在推送到具体某个用户搜索引擎和个性化推荐要求几分钟甚至几秒计算出结果。这就是大数据经常阐述的秒级定律,就是说对处理速度有要求,一般要在秒级时间范围内给出分析结果,时间太长就失去价值了。这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。

Variety：多样；这包括着种类多样化和来源多样化。种类上包括结构化、半结构化和非结构化数据，具体表现为网络日志、音频、视频、图片、地理位置信息等，数据的多类型对数据处理能力提出了更高的要求。数据可以由传感器等自动收集，也可以由人类手工记录。大数据有多种形式。分析表明，关键的定义边界标记是速度和穷尽性特征。所以大数据的多样性无法概括，在这里我只能举例说明：

1.表现形态的多样性

从电子数据的外在形态来看，电子数据具有丰富的表现形态。《电子数据规定》第1条以列举的方式，举示了电子数据的常见形态，包括但不限于：(1)网页、博客、微博客、朋友圈、贴吧、网盘等网络平台发布的信息；(2)手机短信、电子邮件、即时通信、通讯群组等网络应用服务的通信信息；(3)用户注册信息、身份认证信息、电子交易记录、通信记录、登录日志等信息；(4)文档、图片、音视频、数字证书、计算机程序等电子文件

2.证据属性的多样性

与《电子数据规定》排除言词证据不同，电子数据也具备所有的证据属性，既可能是物证，也可能是书证或人证。正如美国学者认为，“在审判中使用电子证据的最大挑战在于，不能轻易地将其划归传统的证据类型”。①刘品新教授提出了“七分”的观点，认为所有的证据种类都具有电子形态②虽然其观点的具体内容有待商榷，但这也表明电子数据的形态非常多样以及存在多重证据属性。正是因为如此，在探讨电子数据该适用何种规则时，我们发现学者们既要探讨电子数据与物证相关的规则，如鉴真规则；又要研究电子数据与人证相关的规则，如传闻证据规则③还要研究电子数据与书证相关的规则，如最佳证据规则。④一个证据要与三种不同类型的证据规则发生关系，这在其他证据中是不存在的。其根本原因在于电子数据本身具有“多重证据的属性”，因此才会展示出证据的多种面孔。

Value：价值密度低；价值密度是单位数据所产生的有价值的信息量。大数据的数据量很大，但随之带来的，就是价值密度很低，数据中真正有价值的，只是其中的很少一部分。价值密度的下降将持续，因而未来的低价值数据将成为主战场，例如视频资料、人的行为模式、语音轨迹、天气数据等。虽然价值密度较低，但低价值数据的体量要比高价值数据高几个数量级，对其挖掘的市场价值将远高于高价值数据市场。

Veracity：真实；大数据的真实性，主要是两个方面，一是数据源的真实性，二是大数据结果的真实性。我们知道，生产一个产品，如果原材料本身就有问题，那其成品自然会受到影响。当然，也不排除，原材料本身没问题，只是在生产过程中，由于操作失误、设备故障、生产工艺等等原因，也会影响产品的质量。与之对应的，商品的质量鉴证，有一套技术标准，产品规范，有固定的质量检验体系。

从本质上讲，大数据跟产品是一样的，如果数据源存在问题，形成的大数据结果自然也会有问题；另外，大数据的处理方式的不同，如在数据建模、清洗、技术处理采用的方式不一样，也会导致结果的差异性。

但大数据跟普遍有别于一般性商品，《大数据时代》里有说到，大数据注重的相关性，关联性，而非精确性，因为关注的量大，部分的小问题，并不会对结果产生影响。这些错误我觉得主要来源于：

1.认知局限。不可能拿到所有数据，不可能考虑到所有影响因素。

2.方法局限。不少统计方法都有数据分布假设，机器学习里的监督学习算法也有样本独立同分布的假设。但使用这些方法时，其实是冒着假设并不一定成立的风险。

3.过度引申风险。很多时候数据分析的需求方，想知道的是通过数据找出“为什么？”也就是数据中存在的因果性，但其实对于复杂问题来说，认知的极限在相关性。

C1pher_1

2021年9月29日

何为大数据

大数据系统相关栏目本月热门文章