pycharm搭建spark环境

pycharm搭建spark环境
  • 安装python环境
    windows下有安装包,自行下载安装便可
  • 安装spark环境
    • 官网下载 spark-2.3.1-bin-hadoop2.7 包,解压便可
    • 配置
      HADOOP_HOME:D:\softwares\Java\hadoop-2.7.7
      SPARK_HOME:D:\softwares\Java\spark-2.3.1-bin-hadoop2.7
      PATH:%SPARK_HOME%\bin;%HADOOP_HOME%\bin;
  • 配置python-spark环境
    • 将spark目录 D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\python\lib 下的 py4j-0.10.7-src.zip 解压
    • 将解压后的 py4j 放到 python 目录 D:\softwares\Java\Python36\Lib\site-packages
    • 提示:python 和 spark 的安装目录自行替换
  • 下载安装pycharm
    • 建立项目
    • 建立python文件,内容以下:
      from pyspark import SparkConf, SparkContext
      
      conf = SparkConf().setMaster('local').setAppName('JackManWu')
      sc = SparkContext(conf=conf)
      lines = sc.textFile("D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\README.md")
      print(lines.count())
    • 点击run运行,结果以下:
      2018-08-20 17:30:13 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
      Setting default log level to "WARN".
      To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
      2018-08-20 17:30:15 WARN  Utils:66 - Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
      103
    • 运行是没有问题,可是在pycharm中,pysparkSparkConfSparkContext 会有红色波浪线,并且也没有spark的代码智能提示、补全等,极不方便,以下方法能够解决:
      • 点击File->Settings,在左侧导航栏找到本身的项目,点击 Project Structure ,在面板右侧,点击 Add Content Root ,将spark目录 D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\python\lib 下的 pyspark.zip 的文件添加进项目中,便可解决红色波浪线及智能提示补全问题。
相关文章
相关标签/搜索