【技术文档】PySpark学习笔记~ 持续更新

PySpark实战

第零章：MySQL练习

0.1 SQL常用指令0.2 SQL基础知识第零章：XGB练习

0.1 XGB模型解读第一章：了解Spark

1.1 什么是Apache Spark1.2 Spark作业和API1.3 Spark2.0的结构1.4 小结第二章：弹性分布式数据集

2.1 RDD的内部运行方式
前言：本教程为使用PySpark进行推荐算法实战训练的技术文档撰写，因此，会有诸多推荐算法相关应用。

第零章：MySQL练习

数据库地位：前端所呈现的内容，一般是经过“数据库(SQL)->服务器->前端”，MySQL这款软件是目前IT行业最热门的一款数据库软件。容器：（1）存在内存中：数组、集合（缺点：断电数据即丢失）；
（2）可以永久存储：文件（缺点：查询很麻烦）；
（3）结合前两者可以永久存储 &易于管理和查询：数据库：DB（存储了一系列有组织&规划的数据）；DBMS：数据库管理系统(如MySQL/Oracle)，进行数据库的检索/插入/更新/删除、SQL：结构化查询语言，是专门用来和数据库通信的语言（和C一样）DBA：数据库管理员职务，专门招聘数据库特点：（1）数据存放流程：将数据放入表中，表再放入库中.（2）表名具有唯一性。（3）表 由列组成，也称为字段，每一列类似于JAVA中的“属性”。（4）表中的数据 按行存储，每一行类似于JAVA中的“对象”。初始化库：information_schema、mysql、performance_schema、sys 0.1 SQL常用指令

SELECT：SELECT 语句用于从表中选取数据，结果被存储在一个结果表中（称为结果集）。scott库创建：数据库名：scott；字符集：utf8。导入**.sql文件，运行该数据库，再刷新一次表，一般是三张重要的表“dept、emp、salgrade” 0.2 SQL基础知识

1. hive和MySQL区别和练习？
（1）结构： MySQL有四层结构：连接层、服务层、引擎层、存储层；Hive是为了数据仓库设计的，数据存储在hadoop上（MySQL存储在设备或者本地）
（2）数据更新： Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；
（3）索引： Hive无索引，每次扫描所有数据，底层是MR，并行计算，适用于大数据量；MySQL有索引，适合在线查询数据；
（4）执行： Hive底层是MarReduce；MySQL底层是执行引擎
PS：MapReduce是一种分布式计算框架，以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。主要用于搜索领域，解决海量数据的计算问题。 MR有两个阶段组成：Map和Reduce，用户只需实现map ()和reduce ()两个函数，即可实现分布式计算。
（5）可扩展性： Hive可扩展大数据量；MySQL存在限制

2. presto、hive和spark引擎区别？
参考知乎
（1）主流的执行引擎：Hive、Sparksql、Presto、Kylin、Impala、Druid、Clickhouse
（2）Hive和Presto有很大的相似性：
① Presto没有使用MapReduce，它是通过一个定制的查询和执行引擎来完成的。
② 它的所有的查询处理是在内存中，这也是它的性能很高的一个主要原因。
③ Presto和Spark SQL有很大的相似性，这是它区别于Hive的最根本的区别（Hive）。
（3）

第零章：XGB练习 0.1 XGB模型解读第一章：了解Spark

快速易用的处理复杂数据的矿机！

1.1 什么是Apache Spark 1.2 Spark作业和API 1.3 Spark2.0的结构 1.4 小结第二章：弹性分布式数据集 2.1 RDD的内部运行方式

【技术文档】PySpark学习笔记~ 持续更新

大数据系统相关栏目本月热门文章