比较常见的词频统计

大数据系统更新时间：2026-05-21 21:19:44 发布时间：1671天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

spark上的词频统计

package com.njbdqn

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setMaster("local[*]").setAppName("wc")
    val sc=new SparkContext(conf)   //基本配置文件
    val rdd=sc.textFile("D:\ChangZhi\myspark\src\main\resources\data.txt") //文件夹位置
    rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).foreach(println)
    sc.stop()
  }
}

scala词频统计

package com.njbdqn

import org.apache.spark.{SparkConf, SparkContext}

import scala.io.Source

object test {
  def main(args: Array[String]): Unit = {
    val rx=Source.fromFile("D:\ChangZhi\myspark\src\main\resources\data.txt")
      .getLines()
      .toList.mkString(" ").split(" ")
      .map((_,1))
      .groupBy(_._1)
      .foreach(x=>println(x._1,x._2.length))
  }
}

hive 词频统计

(select explode(split(line,' ')) as word from wordcount) w    //通过explode函数把wordcount表变成字段为word的w表
group by word
order by word;

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/342672.html

上一篇包装类Wrapper（封装类）的使用

下一篇 HA集群搭建

大数据系统相关栏目本月热门文章

关于我们文章归档网站地图联系我们