【Spark MLlib速成宝典】基础篇01Windows下spark开发环境搭建（Scala版）

2021-07-19 23:15

阅读：982

目录

　　安装jdk

　　安装Scala IDE for Eclipse

　　配置Spark

　　配置Hadoop

　　创建Maven工程

　　Scala代码

　　条目7

　　条目8

　　条目9

安装jdk

　　要求安装jdk1.8或以上版本。

返回目录

安装Scala IDE for Eclipse

　　无需额外安装scala，这个IDE里面已经集成了。

　　官方下载：http://scala-ide.org/download/sdk.html

技术分享图片

返回目录

配置Spark

　　下载Spark，我下载的版本如图所示

　　官方下载：http://spark.apache.org/downloads.html

　　技术分享图片

　　配置环境变量

　　变量名：SPARK_HOME　　变量值：D:\spark （不能有空格）

技术分享图片

　　添加到Path

技术分享图片

　　安装pyspark包：

　　命令行执行：pip install pyspark

返回目录

配置Hadoop

　　无需安装完整的Hadoop，但需要hadoop.dll，winutils.exe等文件。根据下载的Spark版本，下载相应版本的hadoop2.7.1。

　　链接：https://pan.baidu.com/s/1jHRu9oE 密码：wdf9

　　

　　配置环境变量

　　技术分享图片

　　添加到Path

　　技术分享图片

　　重启计算机！！！环境变量才生效！！！

返回目录

创建Maven工程

　　创建Maven工程可以快速引入项目需要的jar包。pom.xml文件里包含了一些重要的配置信息。这里提供一个可用的Maven工程：

　　链接：https://pan.baidu.com/s/1hsLAcWc 密码：nfta

　　导入Maven工程：

　　可以先将我提供的工程拷贝到workspace，然后引入

技术分享图片

技术分享图片

　　引入后，会自动下载一些jar包，需要等待几分钟

技术分享图片

　　下图说明jar包下载完毕

技术分享图片

　　报错：

技术分享图片

　　更换一下scala的依赖版本：

技术分享图片

技术分享图片

　　运行wordCount.scala程序

　　技术分享图片

返回目录

Scala代码

package com.itmorn.ml
import org.apache.spark.{SparkContext, SparkConf}
object wordCount {
  def main(args: Array[String]) {
    val conf = new SparkConf().setMaster("local").setAppName("wordCount")    //创建环境变量
    val sc = new SparkContext(conf)                                //创建环境变量实例
    val data = sc.textFile("data/wc.txt")                                //读取文件
    data.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect().foreach(println)    //word计数
  }
}

返回目录

条目7

　　。

返回目录

条目8

　　。

返回目录

上一篇：解决CSS3多列样式column-width布局时内容被截断、错乱

下一篇：C# winform 窗体弹出选择目录或文件的对话框

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：【Spark MLlib速成宝典】基础篇01Windows下spark开发环境搭建（Scala版）
文章链接：http://soscw.com/essay/106400.html

评论

亲，登录后才可以留言！

关于我们 | 版权声明 | 常见问题 | 素材投稿 | 联系我们 | 网站地图 |

搜素材网素材除本站原创外均由用户分享，若发现权利被侵害，请联系及时联系我们，我们会在第一时间进行处理。

特别说明：本站所有资源除本站原创外仅供学习与参考，请勿用于商业用途,如有侵犯您的版权请联系客服服务QQ：

点击这里给我发消息

Copyright © 2025 soscw.com 搜素材网素材网版权所有蜀ICP备18015633号-1