栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

SparkStreaming学习笔记

SparkStreaming学习笔记

SparkStreaming学习笔记
    • Spark核心模块
    • 流式(Streaming)数据处理
      • 使用Dstream进行wordCount操作:
      • DStream的创建


Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 Spark 和Hadoop 的根本差异是多个作业之间的数据通信问题 : Spark 多个作业之间数据通信是基于内存,而 Hadoop 是基于磁盘。

Spark核心模块


数据处理的分类

数据处理的方式角度
流式(Streaming)数据处理
批量(brtch)数据处理

数据处理的延迟长短
实时数据处理:毫秒级
离线数据处理:小时or天数级别

流式(Streaming)数据处理

准实时,微批次(时间)的数据处理框架,而且支持的数据输入源很多。数据输入后可以用 Spark 的高度抽象原语,如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如 HDFS,数据库等。


架构图:

使用Dstream进行wordCount操作:

添加依赖


 org.apache.spark
 spark-streaming_2.12
 3.0.0

代码如下:

package com.cjy.bigdata.spark.streaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object SparkStreaming01_WordCount {
  def main(args: Array[String]): Unit = {
  //TODO 创建环境对象
    //StreamingContext创建时,需要传递两个参数
    //第一个表示环境配置
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkStreaming")
    //第二个参数表示批量处理的周期(采集周期)
    val ssc = new StreamingContext(sparkConf,Seconds(3))

  //TODO 逻辑处理
    //获取端口数据
    val lines: ReceiverInputDStream[String] = ssc.socketTextStream("localhost", 9999)
    val words = lines.flatMap(_.split(" "))
    val wordToOne = words.map((_, 1))
    val wordToCount: DStream[(String,Int)] = wordToOne.reduceByKey(_ + _)
    wordToCount.print()
  //TODO 关闭环境
    //由于采集器是长期执行的任务,所以不能直接关闭,而且不能让main方法执行完毕
    //ssc.stop()
    //1、启动采集器
    ssc.start()
    //2、等待采集器的关闭
    ssc.awaitTermination()
  }
}

1、得到StreamingContext对象,参数中是环境配置和采集周期
2、调用socketTextStream方法,采集数据为一行行的
3、使用flatMap将数据切分,形成单词形式
4、words.map((_, 1))将单词映射为元组
5、使用reduceByKey方法将相同单词数做统计

结果如下:

DStream的创建
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/651347.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号