- 序言引言
- 推荐序一
- 推荐序二
- 译者序
- 引言
- 第一部分 大数据时代的思维变革
- 01 不是随机样本,而是全体数据
- 02 不是准确性,而是混杂性
- 未完
一个大规模生产、分享和应用数据的时代正在开启。
大数据的真实价值就像漂浮在海洋中的冰山,绝大部分都隐藏在表面之下,而发掘数据价值、征服数据海洋的“动力”就是云计算。
以云计算未基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、告诉、多变化的终端数据存储下来,并随时进行分析与计算,大数据与云计算是一个问题的两面:一个是问题,一个是解决问题的方法。
大数据发展的障碍,在于数据的“流动性”和“可获取性”。如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求。
推荐序二人们主要依赖抽样数据、局部数据和片面数据,甚至在无法获得实证数据的时候纯粹依赖经验、理论、假设和价值观去发现未知领域的规律。所以人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者是无知的。
大数据的出现,使得利用数据分析结果获取知识、商机和社会服务的能力的门槛降低,门槛的降低直接导致了数据的容错率提高和成本的降低,人们可以在很大程度上从对因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上。只要发现了两个现象之间存在的显著相关性,就可以创造巨大的经济和社会效益,而弄清两者为何相关可以留给学者们慢慢研究。
大数据逐渐成为现代社会基础设施的一部分,就像公路、铁路,但就其价值特性而言,大数据却和这些物理化的基础设施不同,不会因为使用而折旧和贬值(本书阐明会折旧和贬值,只能说序言作者意思想表示程度不同)。
译者序本书内容:
大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。接着,从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力。最后,作者面熟了大数据帝国千叶的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。
译者观点:(可我觉得原作者并没有这么极端)
对于大数据时代“相关关系比因果关系更重要”这个观点不认同,与其说是大数据让我们重视相关胜于因果,不如说机器学习和以结果为导向的研究思路让我们如此。
认为相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义魅影,绝非大数据自身的诉求。
苏珊·朗格在《哲学新视野》一书中说:
某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以它们似乎将有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来建构一个综合分析体系的概念轴心。这种“宏大概念”突然流行起来,一时间把几乎所有东西都挤到了一边。
(种草,最喜欢科学上升到哲学了)
大数据是一个很重要的概念,代表了很重要的趋势,但并不是一种放之四海而皆准的万能概念——因为越是万能的,就越是空洞的。《文化的解释》中人类学家克里福德·吉尔兹劝说:努力在可以应用、可以拓展的地方,应用它、拓展它;在不能应用、不能拓展的地方,就停下来。
(醍醐灌顶)
变革公共卫生
可预测冬季流感
变革商业
带来创业盈利机会
变革思维
获得新认知、创造新价值的来源
大数据的核心是预测。大数据不是教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。
(第1-3章)
大数据的精髓在于我们分析信息时的三个转变。
第一个转变是,在大数据时代,我们可以分析更多的数据,有时甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
第二个转变是,研究数据如此之多,以至于我们不再热衷于追求精确度。
第三个转变,因前两个转变而促成,即我们不再热衷于寻找因果关系。我们不再需要在还没有收集数据之前,就把我们的分析建立在早已设立的少量假设的基础之上。让数据发声,我们会注意到很多以前从没意识到的联系的存在。
(第4章)
“数据化”概念
模拟时代的数据收集和分析极其耗时耗力,新问题的出现通常要求我们重新收集和分析数据。数字化的到来使得数据管理效率又向前迈出了重要一步。数字化将模拟数据转换成计算机可读取的数字数据。
大数据时代开启了数据化的变革。数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括很多我们以前认为和“信息”根本搭不上边的事情。
(第5-6章)
大数据如何改变了商业、市场、社会的本质
(第7章)
大数据的负面影响
危险不再是隐私的泄露,而是被预知的可能性
(第8章)
大数据时代倡导的一系列规范
讲第一个转变。
很长一段时间依赖,准确分析大量数据对我们而言是一种跳帧,因为收集和处理大规模数据的能力有限。
仅用一部分数据不如采用所有数据,但数据量大时又不现实,所以,有目的地选择最具代表性的样本是最恰当的方法,但问题的关键是选择样本时的随机性。
采样分析的精确性随着采样随机性的增大而大幅提高,但与样本数量的增加关系不大。
随机采样是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难,一旦采样过程中存在任何偏见,分析结果就会相去甚远。
大数据中的“大”不是绝对意义上的大,虽然在大多数情况下是这个意思。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法,即全数据模式。
02 不是准确性,而是混杂性讲第二个转变。
对于“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。
未完


