- 数据和知识 data and knowledge
- 动机
- 数据挖掘 data mining
- 概念
- 步骤
- 可以利用的数据类型
- 知识是从数据中提取的有意义的东西
- 相比数据,知识是对人有用的内容
目前自动化的数据获取工具以及数据库技术,让大量的数据躺在数据库中。也就是说目前有大量的数据,但是却对知识十分缺乏。
解决办法:数据仓库(data warehouse)与数据挖掘(data mining)。
Knowledge Discovery in Database
从大型数据库中的数据中提取感兴趣的(重要的、隐含的、以前未知的和潜在有用的)信息(information)或模式(pattern)
- 学习应用领域:相关的先验知识和应用目标
- 创建目标数据集:数据选择
- 数据清洗和预处理:(可能需要60%的工作量)
- 数据缩减和转换:找到有用的特征、维数/变量减少、不变表示
- 选择数据挖掘的功能:总结、分类、回归、关联、聚类。
- 选择挖掘算法
- 数据挖掘:搜索感兴趣的模式
- 模式评估和知识展示:可视化、转换、去除冗余模式等。
- 使用已发现的知识
- 关系型数据库
- 数据仓库
- 事务数据库
- 高级数据库和信息库
- 面向对象和对象关系数据库
- 空间数据库
- 时间序列数据和时间数据
- 文本数据库和多媒体数据库
- 异构和遗留数据库
- 万维网



