栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

【贪玩巴斯】数据仓库与数据挖掘(二)——「详解数据仓库的发展、需要的理由和数据仓库的特点」

【贪玩巴斯】数据仓库与数据挖掘(二)——「详解数据仓库的发展、需要的理由和数据仓库的特点」

数据仓库与数据挖掘技术——数据仓库的发展,需要数据仓库的理由和数据仓库的三大特点详解
  • 1.数据仓库的发展
  • 2.Why Data Warehouse 为什么有了传统数据库,还有数据仓库?
    • 数据库发展回顾
    • 1. 大规模数据的产生
    • 2. 操作性数据库的局限性
    • 3. 异构数据源的共享问题
    • 所以急需一个技术架构——数据仓库 Data Warehouse
    • 4. 数据仓库与联邦数据库的异同对比
  • 3. 数据仓库:
    • 1.面向主题
    • 2.集成的

1.数据仓库的发展
  • 1980 NCR为Wal-Mart建立了第一个数据仓库
  • 1996 IDC调查了62家实现数据仓库的企业,表面数据仓库为企业提供了巨大的收益
  • IBM已在数据仓库方面进行了10多年的研究,并发展成商用产品。
  • 其它数据库厂商也在数据仓库领域纷纷提出了各自的解决方案
  • 相关公司:
  • 学术界:
  • 国产数据库
    • 阿里云:
    • 云原生数据库:PolarDB
    • 云原生数据仓库:AnalyticsDB
    • 腾讯:
    • TDSQL
    • 华为:
    • GaussDB——OpenGauss、DWS
    • 中国人大:
    • Kingbase
    • 武汉:
    • 达梦
    • 天津:
    • Gbase
    • PingCap:
    • TiDB
2.Why Data Warehouse 为什么有了传统数据库,还有数据仓库?
  • 现在数据量非常大,积累起来压力会非常大,并且在传统的数据库中无法满足利用这些数据产生新的资产(效益)
    • 比如双十一时,巨大数据量
    • 从数据中获取所需的信息,并转换为企业的决策和效益
  • OLTP传统数据库的操作局限性(OLTP是实时性的数据库,传入数据就快速计算并返回所需要的)
  • 数据异构性——数据分析面向的是多个数据库,不止单一一个数据类,遇到的情况会是所用数据库不相同运行系统不同,即软硬件会有差别异构
数据库发展回顾

  • ER模型:实体关系图
1. 大规模数据的产生
  • 全世界产生巨大的数据量。
2. 操作性数据库的局限性
  • 事务处理以写为主,分析处理以读为主。
3. 异构数据源的共享问题
  • 各类数据库产品增加,异构环境增加。为了实现异构环境的整合和共享。
所以急需一个技术架构——数据仓库 Data Warehouse 4. 数据仓库与联邦数据库的异同对比


  • 联邦数据库
    • 把用户的查询请求进一步转发给底层的数据库
    • 前端发送Globle query 全局查询
    • 数据库进一步转换为Local query 本地查询
    • 中心数据库Federated Database进行翻译,将数据库指令翻译成对应的下层数据库的语言进行操作。
    • 类似于视图,没有真正的数据。
    • 更大的意义是作为Globle view 全局视图
    • 联邦数据库的速度更快。
    • 联邦数据库网络开销更小,因为都是虚表View视图。
    • 联邦数据库的数据可以实时更新。
    • 对于跨国公司而言,联邦数据库运用的更多。


  • 数据仓库
    • 真正把底层的数据库抽取出来转换加载到中心的数据仓库中
    • 数据仓库中存储的空间更大,比联邦数据库大得多
    • 数据仓库的网络开销更大,因为它直接传送的就是大量的真实的数据。
    • 数据仓库比较难以做到实时更新。
    • 实际运用中,因为更注重查询的功能,所以数据仓库用的更多。
      • 数据仓库
      • ——面向主题(为中心的目的进行服务,不管数据来自哪个角落的数据库,打破了不同数据库之间的界限),底层的数据库面向应用。
      • ——集成的
      • ——时变的
      • ——非易失的


  • catalog——meta Data 元数据
    • 关于数据的数据
    • 分为技术元数据(身份证号ID),业务元数据(对字段、业务的含义解释)。
  • ETL
    • extract transform loading
    • 提取、转换、记载
3. 数据仓库:
      • 数据仓库
      • ——面向主题(为中心的目的进行服务,不管数据来自哪个角落的数据库,打破了不同数据库之间的界限),底层的数据库面向应用。
      • ——集成的
      • ——时变的
      • ——非易失的
1.面向主题
  • 概念
    主题(Subject):特定的数据分析领域与目标
    面向主题:为特定的数据分析领域提供数据支持。
  • 与传统的差别:
    传统数据库中的数据是原始、基础的数据。
    特定分析领域数据是需要对他们做必要的抽取、加工总结而形成的。
  • 步骤
    抽取主题。确定每个主题所包含的数据内容
2.集成的
  • 概念
    分析需求服务需要不同的多个数据库,那么要从多个数据源中获取数据就包括多种类型数据库、文件系统以及Internet网上数据等。通过数据集成而形成数据仓库的数据。
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/279792.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号