《大数据时代》（维克托·迈尔·舍恩伯格）读书笔记

观点摘录

序言引言
- 推荐序一
- 推荐序二
- 译者序
- 引言
第一部分大数据时代的思维变革
- 01 不是随机样本，而是全体数据
- 02 不是准确性，而是混杂性
未完

序言引言推荐序一

一个大规模生产、分享和应用数据的时代正在开启。

大数据的真实价值就像漂浮在海洋中的冰山，绝大部分都隐藏在表面之下，而发掘数据价值、征服数据海洋的“动力”就是云计算。
以云计算未基础的信息存储、分享和挖掘手段，可以便宜、有效地将这些大量、告诉、多变化的终端数据存储下来，并随时进行分析与计算，大数据与云计算是一个问题的两面：一个是问题，一个是解决问题的方法。

大数据发展的障碍，在于数据的“流动性”和“可获取性”。如同工业革命要开放物质交易、流通一样，开放、流通的数据是时代趋势的要求。

推荐序二

人们主要依赖抽样数据、局部数据和片面数据，甚至在无法获得实证数据的时候纯粹依赖经验、理论、假设和价值观去发现未知领域的规律。所以人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者是无知的。

大数据的出现，使得利用数据分析结果获取知识、商机和社会服务的能力的门槛降低，门槛的降低直接导致了数据的容错率提高和成本的降低，人们可以在很大程度上从对因果关系的追求中解脱出来，转而将注意力放在相关关系的发现和使用上。只要发现了两个现象之间存在的显著相关性，就可以创造巨大的经济和社会效益，而弄清两者为何相关可以留给学者们慢慢研究。

大数据逐渐成为现代社会基础设施的一部分，就像公路、铁路，但就其价值特性而言，大数据却和这些物理化的基础设施不同，不会因为使用而折旧和贬值（本书阐明会折旧和贬值，只能说序言作者意思想表示程度不同）。

译者序

本书内容：
大数据时代处理数据理念上的三大转变：要全体不要抽样，要效率不要绝对精确，要相关不要因果。接着，从万事万物数据化和数据交叉复用的巨大价值两个方面，讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力。最后，作者面熟了大数据帝国千叶的脆弱和不安，包括产业生态环境、数据安全隐私、信息公正公开等问题。

译者观点：（可我觉得原作者并没有这么极端）
对于大数据时代“相关关系比因果关系更重要”这个观点不认同，与其说是大数据让我们重视相关胜于因果，不如说机器学习和以结果为导向的研究思路让我们如此。
认为相关重于因果，是某些有代表性的大数据分析手段（譬如机器学习）里面内禀的实用主义魅影，绝非大数据自身的诉求。

苏珊·朗格在《哲学新视野》一书中说：
某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题，所以它们似乎将有希望解决所有基本问题，澄清所有不明了的疑点。每个人都想迅速地抓住它们，作为进入某种新实证科学的法宝，作为可以用来建构一个综合分析体系的概念轴心。这种“宏大概念”突然流行起来，一时间把几乎所有东西都挤到了一边。
（种草，最喜欢科学上升到哲学了）
大数据是一个很重要的概念，代表了很重要的趋势，但并不是一种放之四海而皆准的万能概念——因为越是万能的，就越是空洞的。《文化的解释》中人类学家克里福德·吉尔兹劝说：努力在可以应用、可以拓展的地方，应用它、拓展它；在不能应用、不能拓展的地方，就停下来。
（醍醐灌顶）

引言

变革公共卫生
可预测冬季流感
变革商业
带来创业盈利机会
变革思维
获得新认知、创造新价值的来源

大数据的核心是预测。大数据不是教机器像人一样思考。相反，它是把数学算法运用到海量的数据上来预测事情发生的可能性。

（第1-3章）
大数据的精髓在于我们分析信息时的三个转变。
第一个转变是，在大数据时代，我们可以分析更多的数据，有时甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机采样。
第二个转变是，研究数据如此之多，以至于我们不再热衷于追求精确度。
第三个转变，因前两个转变而促成，即我们不再热衷于寻找因果关系。我们不再需要在还没有收集数据之前，就把我们的分析建立在早已设立的少量假设的基础之上。让数据发声，我们会注意到很多以前从没意识到的联系的存在。
（第4章）
“数据化”概念
模拟时代的数据收集和分析极其耗时耗力，新问题的出现通常要求我们重新收集和分析数据。数字化的到来使得数据管理效率又向前迈出了重要一步。数字化将模拟数据转换成计算机可读取的数字数据。
大数据时代开启了数据化的变革。数据化意味着我们要从一切太阳底下的事物中汲取信息，甚至包括很多我们以前认为和“信息”根本搭不上边的事情。
（第5-6章）
大数据如何改变了商业、市场、社会的本质
（第7章）
大数据的负面影响
危险不再是隐私的泄露，而是被预知的可能性
（第8章）
大数据时代倡导的一系列规范

第一部分大数据时代的思维变革 01 不是随机样本，而是全体数据

讲第一个转变。
很长一段时间依赖，准确分析大量数据对我们而言是一种跳帧，因为收集和处理大规模数据的能力有限。
仅用一部分数据不如采用所有数据，但数据量大时又不现实，所以，有目的地选择最具代表性的样本是最恰当的方法，但问题的关键是选择样本时的随机性。
采样分析的精确性随着采样随机性的增大而大幅提高，但与样本数量的增加关系不大。
随机采样是在不可收集和分析全部数据的情况下的选择，它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性，但是实现采样的随机性非常困难，一旦采样过程中存在任何偏见，分析结果就会相去甚远。

大数据中的“大”不是绝对意义上的大，虽然在大多数情况下是这个意思。大数据是指不用随机分析法这样的捷径，而采用所有数据的方法，即全数据模式。

02 不是准确性，而是混杂性

讲第二个转变。

对于“小数据”而言，最基本、最重要的要求就是减少错误，保证质量。因为收集信息的有限意味着细微的错误会被放大，甚至有可能影响整个结果的准确性。

未完

《大数据时代》（维克托·迈尔·舍恩伯格）读书笔记

大数据系统相关栏目本月热门文章