栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

《大数据时代》(维克托·迈尔·舍恩伯格)读书笔记

《大数据时代》(维克托·迈尔·舍恩伯格)读书笔记

观点摘录
  • 序言引言
    • 推荐序一
    • 推荐序二
    • 译者序
    • 引言
  • 第一部分 大数据时代的思维变革
    • 01 不是随机样本,而是全体数据
    • 02 不是准确性,而是混杂性
  • 未完

序言引言 推荐序一

一个大规模生产、分享和应用数据的时代正在开启。

大数据的真实价值就像漂浮在海洋中的冰山,绝大部分都隐藏在表面之下,而发掘数据价值、征服数据海洋的“动力”就是云计算。
以云计算未基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、告诉、多变化的终端数据存储下来,并随时进行分析与计算,大数据与云计算是一个问题的两面:一个是问题,一个是解决问题的方法。

大数据发展的障碍,在于数据的“流动性”和“可获取性”。如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求。

推荐序二

人们主要依赖抽样数据、局部数据和片面数据,甚至在无法获得实证数据的时候纯粹依赖经验、理论、假设和价值观去发现未知领域的规律。所以人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者是无知的。

大数据的出现,使得利用数据分析结果获取知识、商机和社会服务的能力的门槛降低,门槛的降低直接导致了数据的容错率提高和成本的降低,人们可以在很大程度上从对因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上。只要发现了两个现象之间存在的显著相关性,就可以创造巨大的经济和社会效益,而弄清两者为何相关可以留给学者们慢慢研究。

大数据逐渐成为现代社会基础设施的一部分,就像公路、铁路,但就其价值特性而言,大数据却和这些物理化的基础设施不同,不会因为使用而折旧和贬值(本书阐明会折旧和贬值,只能说序言作者意思想表示程度不同)。

译者序

本书内容:
大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。接着,从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力。最后,作者面熟了大数据帝国千叶的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。

译者观点:(可我觉得原作者并没有这么极端)
对于大数据时代“相关关系比因果关系更重要”这个观点不认同,与其说是大数据让我们重视相关胜于因果,不如说机器学习和以结果为导向的研究思路让我们如此。
认为相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义魅影,绝非大数据自身的诉求。

苏珊·朗格在《哲学新视野》一书中说:
某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以它们似乎将有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来建构一个综合分析体系的概念轴心。这种“宏大概念”突然流行起来,一时间把几乎所有东西都挤到了一边。
(种草,最喜欢科学上升到哲学了)
大数据是一个很重要的概念,代表了很重要的趋势,但并不是一种放之四海而皆准的万能概念——因为越是万能的,就越是空洞的。《文化的解释》中人类学家克里福德·吉尔兹劝说:努力在可以应用、可以拓展的地方,应用它、拓展它;在不能应用、不能拓展的地方,就停下来。
(醍醐灌顶)

引言

变革公共卫生
可预测冬季流感
变革商业
带来创业盈利机会
变革思维
获得新认知、创造新价值的来源

大数据的核心是预测。大数据不是教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。

(第1-3章)
大数据的精髓在于我们分析信息时的三个转变。
第一个转变是,在大数据时代,我们可以分析更多的数据,有时甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
第二个转变是,研究数据如此之多,以至于我们不再热衷于追求精确度。
第三个转变,因前两个转变而促成,即我们不再热衷于寻找因果关系。我们不再需要在还没有收集数据之前,就把我们的分析建立在早已设立的少量假设的基础之上。让数据发声,我们会注意到很多以前从没意识到的联系的存在。
(第4章)
“数据化”概念
模拟时代的数据收集和分析极其耗时耗力,新问题的出现通常要求我们重新收集和分析数据。数字化的到来使得数据管理效率又向前迈出了重要一步。数字化将模拟数据转换成计算机可读取的数字数据。
大数据时代开启了数据化的变革。数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括很多我们以前认为和“信息”根本搭不上边的事情。
(第5-6章)
大数据如何改变了商业、市场、社会的本质
(第7章)
大数据的负面影响
危险不再是隐私的泄露,而是被预知的可能性
(第8章)
大数据时代倡导的一系列规范

第一部分 大数据时代的思维变革 01 不是随机样本,而是全体数据

讲第一个转变。
很长一段时间依赖,准确分析大量数据对我们而言是一种跳帧,因为收集和处理大规模数据的能力有限。
仅用一部分数据不如采用所有数据,但数据量大时又不现实,所以,有目的地选择最具代表性的样本是最恰当的方法,但问题的关键是选择样本时的随机性。
采样分析的精确性随着采样随机性的增大而大幅提高,但与样本数量的增加关系不大。
随机采样是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难,一旦采样过程中存在任何偏见,分析结果就会相去甚远。

大数据中的“大”不是绝对意义上的大,虽然在大多数情况下是这个意思。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法,即全数据模式。

02 不是准确性,而是混杂性

讲第二个转变。

对于“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。

未完
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/674182.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号