栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark 从零开始

Spark 从零开始

什么是spark? 相关应用场景


特性
1.快速性
如果在内存中运行MapRaduce,要比Hadoop快100倍
如果在磁盘中运行,要比Hadoop快10倍
Spark使用先进的有向无环图执行引擎来支持非循环的数据流在内存中计算

2.易用性
Spark提供超过80个高阶算子,这些算子使其很容易构建并行应用
这些算子支持多种语言 按照切合度排序为 Scala, Python, R

3.通用性
Spark有一个强大的堆库,包括SQL and Dataframes, MLlib for machine learning, GraphX, and Spark Streaming

4.跨平台性
Spark可以运行在Hadoop, Mesos, standalone, or in the cloud
可以访问不同的数据源包括HDFS, Cassandra, Hbase, and S3.

Spark核心RDD

最基础RDD 词频统计

a.txt

RDD创建方式
  1. 集合

  2. 文件

Spark支持的两种RDD操作





Action算子


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/629234.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号