大数据的离线数据处理
Hadoop大数据平台(Hadoop1和Hadoop2、Hadoop3)
HDFS分布式文件系统MapReduce分布式计算框架Yarn资源管理平台 Hive数据仓库
底层执行的是MR Sqoop关系型数据库和非关系型数据库的导入和导出
底层MR Flume数据采集 大数据的实时数据处理
Storm-----天猫双11,实时统计销售总额Spark-----一站式数据分析平台
Spark-CoreSparkSql----HiveSparkStreaming----StormSparkMllib----机器学习SparkGraphX----图计算 Kafka消息队列 大数据新兴技术
Flink-一站式数据分析Keylin数据分析-数据立方体 机器学习阶段
机器学习和大数据区别和联系
大数据框架做的是基础的数据的存储和统计计算,但是如果需要从大量的是数据中发现或挖掘规律,需要使用机器学习方法,通过机器学习算法结合大量数据,构建机器学习模型,通过模型对现实事件作出预测和判断。如果要构建模型,需要大量的数据,一定需要大数据框架做基础统计和分析 大数据4V特征
数据量大:TB-PB-ZB HDFS存储数据种类多:
结构化数据:Mysql或oracle存储非结构化数据:视频、音频等 -HDFS存储半结构化数据:html、xml等 -HDFS存储 速度快
数据的增长的速度快:TB-PB-ZB数据的处理速度快:大数据 框架解决 价值密度低-价值高
密度=有价值数据/All机器学习学习算法解决 2.大数据时代究竟改变了什么?
大数据时代改变更多的是思维方式数据重要性:
数据资源--------数据资产(数据的增值) 方法论:
基于知识的理论完美主义-----基于数据的历史经验主义翻译:你好吗?基于知识:
你 好 吗+ 语言学知识你 you your好 well good吗 do does is你好吗?Are you well?Are you good?How are you? (选择) 基于数据:
Are you well?Are you good?How are you? (选择) 数据分析:
统计学-----数据科学(大数据)
抽样理论数据科学家(拥有大数据技术+机器学习算法技术+强大的业务能力、数据分析能力) 计算智能:
复杂算法–简单算法(MapReduce) 业务层面:
业务的数据化--------数据的业务化 决策方式
目标决策------数据决策 产业竞合
以战略为中心-------以数据为中心 3.以大数据项目为例展开
项目名称:电信日志分析系统项目描述:该项目对电信用户上网所产生的日志进行分析和处理,对产生的日志数据进行入库、处理、实时分析、上报监管部门等,整个项目利用Hadoop大数据平台,完成日志的入库、处理、分析和查询等,达到异常ip的检测、关键词的过滤、违规违法用户的检测等。项目架构:
数据采集:ftp和socket方式数据存储:HDFS数据分析:Hive等数据展现:WEB 数据量:1T-20T数据量不等集群搭建:在全国20个省份部署集群,集群数据在10-100台不等 4.以推荐系统为例展开
项目名称:推荐系统
项目描述:猜你喜欢
项目架构:离线推荐、实时推荐、近线计算(整个业务逻辑整合的地方)
5.人工智能 6.人工智能、机器学习、深度学习区别和联系机器学习是人工智能的一个分支,深度学习是机器学习的一种方法或技术 7.数据、数据分析、数据挖掘、机器学习
数据:1.7 1.8 1.9
数据分析
信息:矮 正好 高
深度学习—>机器学习(方法)—>数据挖掘(事情)、模式识别(事件)
有价值信息:长相好 丑 好
机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能。机器学习是人工智能具有智能的必备技术手段,人工智能的核心总结:机器学习模型Model=数据+算法
如果有新的数据,只需要代入到Model中就可以输出预测值 什么不是机器学习?
比如对于计算问题、已经知道结果的(确定性问题)等不是机器学习问题机器学习问题需要有一个预测的过程 9.基于规则的学习
基于专家发现的规则,制定规则,只需要新数据代入规则进行判断即可 10.基于模型的学习
X(邮件一些特征数据)---------f(函数-模型)--------->Y(结果数据)基于模型就可以直接进行预测分析 11.机器学习各种概念
参考图示 12.机器学习概念补充
类别型变量处理
天气:晴天、阴天、雨天
label encoder:标签编码
晴天、阴天、雨天 0 1 2
one-hot encoder:独热编码
晴天、阴天、雨天
0 0 1
0 1 0
1 0 0
结果:通常使用labelencoder
是享受运动 0 不是 1
概念学习
X---------------f(模型)--------------------->Y 回归和分类问题
如果预测值是连续值对应的问题是回归问题如果预测值是离散值对应的问题是分类问题 13.机器学习分类
根据是否有类别标签—监督学习和非监督学习
监督学习:
分类:预测值是否为连续值,不是连续值的预测的话,是分类回归:是连续值的预测的话,是回归
非监督学习:
聚类:通过相似性度量,组内的相似性是极高的,组间的相异性极高的,进行分类降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
特征选择:
从原有的特征中选择比较重要的特征-----X1X2X3====>X1X2
半监督学习
应用场景比较多一些,
半监督学习:
1.基于聚类的假设
有类别标记的数据+没有类别标记的数据将有类别标记的数据,去掉标签列所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的, 有类别标记的数据,根据机器学习常用的处理方法—投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
2.利用所有样本进行模型训练
强化学习(系统)
解决连续决策的问题围棋、无人驾驶汽车
迁移学习
14.机器学习三要素机器学习=算法+数据+策略(损失函数)机器学习=模型+算法+策略(损失函数)
模型:决策函数、条件概率分布策略:损失函数/目标函数/误差函数
01损失—分类问题平方损失—回归问题绝对值损失—分类或回归问题 算法:
解析解最优解-----梯度下降法或牛顿法 15.模型选择
模型的泛化性能
模型对于新数据的适应能力欠拟合:模型对于训练集和测试集效果都很差
产生的原因:模型太过于简单产生的时期:训练模型的初期解决办法:
增加多项式的特征项,使得模型变得复杂增加多项式的特征项的次数,使得模型复杂减少正则罚项 过拟合:模型对于训练集效果很好,对于测试集效果较差
产生的原因:模型过于复杂、训练数据量太少、数据不纯产生的时期:训练模型的中后期解决办法:
增加训练数据重新清洗数据增加正则罚项(降低模型的复杂度) 模型选择的基本原则-奥卡姆剃刀原则
在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合



