栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

【技术文档】PySpark学习笔记~ 持续更新

【技术文档】PySpark学习笔记~ 持续更新

PySpark实战

第零章:MySQL练习

0.1 SQL常用指令0.2 SQL基础知识 第零章:XGB练习

0.1 XGB模型解读 第一章:了解Spark

1.1 什么是Apache Spark1.2 Spark作业和API1.3 Spark2.0的结构1.4 小结 第二章:弹性分布式数据集

2.1 RDD的内部运行方式
前言:本教程为使用PySpark进行推荐算法实战训练的技术文档撰写,因此,会有诸多推荐算法相关应用。

第零章:MySQL练习

数据库地位:前端所呈现的内容,一般是经过“数据库(SQL)->服务器->前端”,MySQL这款软件是目前IT行业最热门的一款数据库软件。容器:(1)存在内存中:数组、集合(缺点:断电数据即丢失);
(2)可以永久存储:文件(缺点:查询很麻烦);
(3)结合前两者可以永久存储 &易于管理和查询:数据库:DB(存储了一系列有组织&规划的数据);DBMS:数据库管理系统(如MySQL/Oracle),进行数据库的检索/插入/更新/删除、SQL:结构化查询语言,是专门用来和数据库通信的语言(和C一样)DBA:数据库管理员职务,专门招聘数据库特点:(1)数据存放流程:将数据放入表中,表再放入库中.(2)表名具有唯一性。(3)表 由列组成,也称为字段,每一列类似于JAVA中的“属性”。(4)表中的数据 按行存储,每一行类似于JAVA中的“对象”。初始化库:information_schema、mysql、performance_schema、sys 0.1 SQL常用指令

SELECT:SELECT 语句用于从表中选取数据,结果被存储在一个结果表中(称为结果集)。scott库创建:数据库名:scott;字符集:utf8。导入**.sql文件,运行该数据库,再刷新一次表,一般是三张重要的表“dept、emp、salgrade” 0.2 SQL基础知识

1. hive和MySQL区别和练习?
(1)结构: MySQL有四层结构:连接层、服务层、引擎层、存储层;Hive是为了数据仓库设计的,数据存储在hadoop上(MySQL存储在设备或者本地)
(2)数据更新: Hive不支持数据的改写和添加,是在加载的时候就已经确定好了;
(3)索引: Hive无索引,每次扫描所有数据,底层是MR,并行计算,适用于大数据量;MySQL有索引,适合在线查询数据;
(4)执行: Hive底层是MarReduce;MySQL底层是执行引擎
PS:MapReduce是一种分布式计算框架 ,以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。 主要用于搜索领域,解决海量数据的计算问题。 MR有两个阶段组成:Map和Reduce,用户只需实现map ()和reduce ()两个函数,即可实现分布式计算。
(5)可扩展性: Hive可扩展大数据量;MySQL存在限制

2. presto、hive和spark引擎区别?
参考知乎
(1)主流的执行引擎:HiveSparksqlPresto、Kylin、Impala、Druid、Clickhouse
(2)Hive和Presto有很大的相似性:
① Presto没有使用MapReduce,它是通过一个定制的查询和执行引擎来完成的。
② 它的所有的查询处理是在内存中,这也是它的性能很高的一个主要原因。
③ Presto和Spark SQL有很大的相似性,这是它区别于Hive的最根本的区别(Hive)。
(3)

第零章:XGB练习 0.1 XGB模型解读 第一章:了解Spark

快速易用的处理复杂数据的矿机!

1.1 什么是Apache Spark 1.2 Spark作业和API 1.3 Spark2.0的结构 1.4 小结 第二章:弹性分布式数据集 2.1 RDD的内部运行方式
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/754183.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号