Spark基于scala api

2021-07-04 13:21

阅读：771

标签：red obj ini 语言 contex 应用运行 split 代码

使用spark 对以下内容进行词频统计　　（使用Scala语言）

hello world
hello java
hello scala
hello spark

　　代码如下：

/**
  * Spark基于 scala api 的词频统计
  */
object WordCount {

  def main(args: Array[String]): Unit = {
    // 初始化 SparkConf  setMaster:设置运行模式 setAppName: 设置应用名称
    val conf = new SparkConf().setMaster("local").setAppName("wordcount")
    // 初始化 SparkContext 对象
    val sc = new SparkContext(conf)
    // 使用SparkContext对象读取文件
    val initRdd = sc.textFile("G:\\test\\wc\\a.txt")
    // 使用flatMap算子对原始数据进行拆分
    val flatmapRdd = initRdd.flatMap(x=>x.split(" "))
    // 使用 map算子 转换每个单词 形如 （word,1）
    val mapRdd = flatmapRdd.map(x=>(x,1))
    // 使用 reudecByKey 统计每个单词的出现的次数
    val reduceRdd = mapRdd.reduceByKey(_+_)
    // 输出每个单词和出现次数
    reduceRdd.foreach(x=>println(x))
  }
}

Spark基于scala api

标签：red obj ini 语言 contex 应用运行 split 代码

原文地址：https://www.cnblogs.com/jack-yc/p/9855814.html

上一篇：C#调用接口返回json数据中含有双引号或其他非法字符的解决办法

下一篇：C# B站的弹幕提取

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：Spark基于scala api
文章链接：http://soscw.com/essay/101734.html

亲，登录后才可以留言！

Spark基于scala api

评论

热门文章

推荐文章

最新文章

置顶文章