spark小案例——sparkstreaming消费Kafka

大数据系统更新时间：2026-04-07 23:41:21 发布时间：1637天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

使用sparkstreaming消费Kafka的数据，实现word count

依赖


    org.apache.spark
    spark-streaming-kafka-0-10_2.12
    3.0.0


     com.fasterxml.jackson.core
     jackson-core
     2.10.1

实现wordcount代码

val conf = new SparkConf().setAppName("StreamWordCount").setMaster("local[*]")
    val sc = new StreamingContext(conf, Seconds(3))

    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "hadoop01:9092",
      "key.deserializer" -> classOf[StringDeserializer],
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> "group1",
    
      "auto.offset.reset" -> "earliest"
    )

    
    val topics = Array("topic01")
    val stream = KafkaUtils.createDirectStream[String, String](
      sc,
      PreferConsistent,
      Subscribe[String, String](topics, kafkaParams)
    )


    
    val value: DStream[String] = stream.map(record => record.value())
    value.flatMap(_.split(" "))
        .map((_,1))
        .reduceByKey(_+_)
        .print()

    sc.start()
    sc.awaitTermination()

启动Kafka,创建Kafka producer

kafka-console-producer.sh --broker-list hadoop01:9092 --to topic01

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/317681.html

上一篇降噪耳机哪款值得入手？学生降噪耳机推荐

下一篇 Spark SQL合并小文件的一种方法

大数据系统相关栏目本月热门文章

关于我们文章归档网站地图联系我们