- 1.数据仓库的发展
- 2.Why Data Warehouse 为什么有了传统数据库,还有数据仓库?
- 数据库发展回顾
- 1. 大规模数据的产生
- 2. 操作性数据库的局限性
- 3. 异构数据源的共享问题
- 所以急需一个技术架构——数据仓库 Data Warehouse
- 4. 数据仓库与联邦数据库的异同对比
- 3. 数据仓库:
- 1.面向主题
- 2.集成的
- 1980 NCR为Wal-Mart建立了第一个数据仓库
- 1996 IDC调查了62家实现数据仓库的企业,表面数据仓库为企业提供了巨大的收益
- IBM已在数据仓库方面进行了10多年的研究,并发展成商用产品。
- 其它数据库厂商也在数据仓库领域纷纷提出了各自的解决方案
- 相关公司:
- 学术界:
- 国产数据库
-
- 阿里云:
-
- 云原生数据库:PolarDB
-
- 云原生数据仓库:AnalyticsDB
-
- 腾讯:
-
- TDSQL
-
- 华为:
-
- GaussDB——OpenGauss、DWS
-
- 中国人大:
-
- Kingbase
-
- 武汉:
-
- 达梦
-
- 天津:
-
- Gbase
-
- PingCap:
-
- TiDB
- 现在数据量非常大,积累起来压力会非常大,并且在传统的数据库中无法满足利用这些数据产生新的资产(效益)
-
- 比如双十一时,巨大数据量
-
- 从数据中获取所需的信息,并转换为企业的决策和效益
- OLTP传统数据库的操作局限性(OLTP是实时性的数据库,传入数据就快速计算并返回所需要的)
- 数据异构性——数据分析面向的是多个数据库,不止单一一个数据类,遇到的情况会是所用数据库不相同运行系统不同,即软硬件会有差别异构。
- ER模型:实体关系图
- 全世界产生巨大的数据量。
- 事务处理以写为主,分析处理以读为主。
- 各类数据库产品增加,异构环境增加。为了实现异构环境的整合和共享。
- 联邦数据库:
-
- 把用户的查询请求进一步转发给底层的数据库
-
- 前端发送Globle query 全局查询
-
- 数据库进一步转换为Local query 本地查询
-
- 中心数据库Federated Database进行翻译,将数据库指令翻译成对应的下层数据库的语言进行操作。
-
- 类似于视图,没有真正的数据。
-
- 更大的意义是作为Globle view 全局视图
-
- 联邦数据库的速度更快。
-
- 联邦数据库网络开销更小,因为都是虚表View视图。
-
- 联邦数据库的数据可以实时更新。
-
- 对于跨国公司而言,联邦数据库运用的更多。
- 数据仓库:
-
- 真正把底层的数据库抽取出来转换加载到中心的数据仓库中
-
- 数据仓库中存储的空间更大,比联邦数据库大得多
-
- 数据仓库的网络开销更大,因为它直接传送的就是大量的真实的数据。
-
- 数据仓库比较难以做到实时更新。
-
- 实际运用中,因为更注重查询的功能,所以数据仓库用的更多。
-
-
- 数据仓库
-
-
-
- ——面向主题(为中心的目的进行服务,不管数据来自哪个角落的数据库,打破了不同数据库之间的界限),底层的数据库面向应用。
-
-
-
- ——集成的
-
-
-
- ——时变的
-
-
-
- ——非易失的
-
- catalog——meta Data 元数据:
-
- 关于数据的数据
-
- 分为技术元数据(身份证号ID),业务元数据(对字段、业务的含义解释)。
- ETL:
-
- extract transform loading
-
- 提取、转换、记载
-
-
- 数据仓库
-
-
-
- ——面向主题(为中心的目的进行服务,不管数据来自哪个角落的数据库,打破了不同数据库之间的界限),底层的数据库面向应用。
-
-
-
- ——集成的
-
-
-
- ——时变的
-
-
-
- ——非易失的
- ——非易失的
-
- 概念
主题(Subject):特定的数据分析领域与目标
面向主题:为特定的数据分析领域提供数据支持。 - 与传统的差别:
传统数据库中的数据是原始、基础的数据。
特定分析领域数据是需要对他们做必要的抽取、加工总结而形成的。 - 步骤
抽取主题。确定每个主题所包含的数据内容
- 概念
分析需求服务需要不同的多个数据库,那么要从多个数据源中获取数据就包括多种类型数据库、文件系统以及Internet网上数据等。通过数据集成而形成数据仓库的数据。



