shartoo +

spark环境部署

本文总阅读量
欢迎star我的博客

一 spark安装和使用

1.1 安装spark

我们主要以Windows环境为例介绍Spark的安装。 整个安装过程主要分为四个步骤:安装JDK、安装Scala、安装Spark、安装WinUtil。在Linux和Mac OS X下 安装Spark只需要完成前三步即可。

1.1.1 安装JDK

Spark采用Scala语言编写,而Scala程序是以JVM为运行环境的,因此需先安装JDK以支持Spark的运行。 Spark通常需要JDK 6.0以上版本,你可以在Oracle的JDK官网 下载相应版本的JDK安装包,如 。需要注意的是,应选择下载“JDK”安装包,而不是“JRE”。在我们这个示例中,我们选择的是JDK 7.

1.1.2 安装scala

刚才我们提到,Spark是采用Scala语言编写的,因此第二步是要安装Scala。Scala官网的下载页面提供了多个版本的Scala下载, 但由于Scala各个版本之间兼容性并不好,因此在下载的时候一定要注意你要安装的Spark版本所依赖的Scala版本,以免遇到一些难以预知的问题。在我们的例子中,是要安装目前最新的Spark 1.3.0版本,因此 我们选择下载所需的Scala 2.10.4版本。选择之前的历史版本下载,需要先从如图2-2所示的下载页面中点击“All previous Scala Releases”链接,进入历史版本列表,然后选择“2.10.4”版本下载 。下载后按照提示一步一步执行安装即可。

Scala安装后,要进行一个验证的过程以确认安装成功,其方法如下:

1.1.3 安装spark

Spark官网提供了各个版本的安装包。为搭建学习试验环境,我们选择下载下载预编译好的包,例 如spark1.3.0binhadoop2.4.tgz spark下载

1.1.4 安装winutils

由于Spark的设计和开发目标是在Linux环境下运行,因此在Windows单机环境(没有Hadoop集群的支撑)时运行会遇到winutils的问题(一个相关的Issue可以参见 参考 。为了解决这一问题,我们需要安装winutils.exe,具体方法如下:

  1. 从一个可靠的网站下载winutils.exe(我们选择从Hadoop商业发行版Hortonworks提供的下载链接
  2. 将winutil.exe拷贝到一个目录,例如:E:\LearnSpark\win\bin。
  3. 按照如图2-4、2-5的步骤,设置Windows系统的环境变量HADOOP_HOME为E:\LearnSpark\win(注意没有bin) 设置环境变量 设置环境变量 至此,Windows下安装Spark的过程全部完成。

1.2 使用spark shell

就像HelloWorld程序基本已成为学习某一门开发语言的第一个入门程序一样,WordCount程序就是试用大数据处理技术的HelloWorld。下面我们就以使用Spark统计一个文件中的单词出现次数为例,快速体验一下便捷的Spark使用方式。

选择一个已存在的文本文件,或新建一个文本文件,作为待统计的单词文件E:\LearnSpark\word.txt,在这里我们新建一个文件,内容为:

apple banana banana banana

下面我们来看一下最后的输出结果,count.txt其实是个目录,在该目录下有好多个文件,其中part-00000和part-00001是我们需要的结果。

part00000
(apple,1)

part00001
(banana,3)

1.3 了解Spark目录结构

Spark安装后,会在安装目录下生成一系列的目录,其结构如下:

我的博客

观点

源码