How to Install Apache Spark on Windows Setup PySpark
为什么要在Windows 10上运行Scala Spark程序⌗
开发环境设置简单:⌗
对于许多开发者来说,Windows是他们最熟悉的操作系统, 因此在Windows上进行开发可以节省大量的环境设置和配置时间。 此外,Windows上有IntelliJ IDEA可以方便Scala和Spark的开发。
本地测试方便:⌗
在本地Windows环境中进行开发, 可以方便快速的进行代码的单元测试和调试。 虽然Spark在集群中运行时的行为可能与在单个机器上有所不同, 但对于许多常见的任务, 本地测试通常可以提供足够的保证。
如何做⌗
步骤1,下载spark并安装⌗
根据自己的环境版本,在官网下载spark-3.2.4-bin-hadoop2.7
包
下载链接地址为https://spark.apache.org/downloads.html
解压.tgz文件放到你本地目录夹,如d:\spark-2.4.4-bin-hadoop2.7
步骤2 下载winutils并安装⌗
下载winutils.exe(解释windows hadoop通信问题)
下载链接地址https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe
存放到d:\spark-2.4.4-bin-hadoop2.7\bin\winutils.exe
该目录下
步骤3,设置环境变量⌗
设置windows环境变量
步骤4 验证测试scala spark 、 pyspark⌗
测试 pyspark
查看显示结果
only showing top 10 rows
验证scala spark⌗
读取csv文件
请注意,要以windows 跑成功spark程序,以下配置是必须的 windows 作为单机跑起来,在本地运行
写入csv文件
以下是保存的csv文件目录
csv 文件内容
在windows10 用intellj idea 创建spark程序步骤⌗
使用 “net.alchim31.maven:scala-archetype-simple”。这个 archetype 为您提供了一个基本的 Scala 项目结构,您可以在此基础上添加 Spark 依赖。
按照以下步骤在 IntelliJ IDEA 中创建一个基于 Scala + Spark 的 Maven 项目:
打开 IntelliJ IDEA,点击 “Create New Project”。
在左侧导航栏中选择 “Maven”,然后勾选 “Create from archetype”。
如果 “net.alchim31.maven:scala-archetype-simple” 不在列表中,点击 “Add Archetype” 按钮。
在 “Add Archetype” 对话框中输入以下信息:
GroupId: net.alchim31.maven
ArtifactId: scala-archetype-simple
Version: 1.7
(或您想使用的其他版本)
点击 “OK”。
在列表中选择 “net.alchim31.maven:scala-archetype-simple”,然后点击 “Next”。
输入 “GroupId” 和 “ArtifactId”(例如,com.example 和 voicepredictionmodel)。点击 “Next”。
选择项目的存储位置,然后点击 “Finish”。
现在,您已经创建了一个基于 Scala 的 Maven 项目。接下来,需要为项目添加 Spark 依赖。