如何在 spark 中设置驱动程序的 python 版本？

python apache-spark pyspark

我正在使用 spark 1.4.0-rc2，所以我可以将 python 3 与 spark 一起使用。如果我将 export PYSPARK_PYTHON=python3 添加到我的 .bashrc 文件中，我可以使用 python 3 交互地运行 spark。但是，如果我想在本地模式下运行独立程序，则会收到错误消息：

例外：worker 中的 Python 版本 3.4 与驱动程序 2.7 中的版本不同，PySpark 无法使用不同的次要版本运行

如何为驱动程序指定 python 的版本？设置 export PYSPARK_DRIVER_PYTHON=python3 无效。

OneCricketeer

设置 PYSPARK_PYTHON=python3 和 PYSPARK_DRIVER_PYTHON=python3 对我有用。

我在 .bashrc 中使用导出来完成此操作。最后，这些是我创建的变量：

export SPARK_HOME="$HOME/Downloads/spark-1.4.0-bin-hadoop2.4"
export IPYTHON=1
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=ipython3
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

我还按照本教程使其在 Ipython3 笔记本中工作：http://ramhiser.com/2015/02/01/configuring-ipython-notebook-support-for-pyspark/

spark 2.1 上存在与“IPYTHON=1”选项相关的错误。错误消息是“IPYTHON 和 IPYTHON_OPTS 在 Spark 2.0+ 中被删除。从环境中删除这些并设置 PYSPARK_DRIVER_PYTHON 和 PYSPARK_DRIVER_PYTHON_OPTS。”

PYSPARK_PYTHON=python3 设置工人的 Python 版本，对吗？

如果从 PyCharm 运行，请将 PYSPARK_PYTHON=python3; PYSPARK_DRIVER_PYTHON=ipython3 添加到 Run >编辑配置 > {your_run_config} >环境变量。要将这些设置为所有运行配置的默认值，请在运行 > 下更新所需模板的环境变量。编辑配置 >模板

Ahmedov

您需要确保您启动的独立项目是使用 Python 3 启动的。如果您通过 spark-submit 提交独立程序，那么它应该可以正常工作，但如果您使用 python 启动它，请确保使用 python3 启动你的应用程序。

此外，请确保您已在 ./conf/spark-env.sh 中设置了您的环境变量（如果它不存在，您可以使用 spark-env.sh.template 作为基础。）

@Kevin - 我也有同样的问题，能否请您发布您在 spark-evn.sh 中所做更改的解决方案。

这是将 PATH 变量引入 Spark 的正确方法，而不是修改 .bashrc。

为什么使用 python 3 需要@Holden？

Spark 可以在 python2 中运行，但在这种情况下，用户试图在他们的问题中指定 python3。无论是哪个 Python 版本，都需要始终如一地完成。

Stefan Falk

对我有帮助：

import os

os.environ["SPARK_HOME"] = "/usr/local/Cellar/apache-spark/1.5.1/"
os.environ["PYSPARK_PYTHON"]="/usr/local/bin/python3"

在将 PYSPARK_DRIVER_PYTHON 设置为与 PYSPARK_PYTHON 相同的值后，这对我有用。

James Clarke

您可以通过在 ./conf/spark-env.sh 文件中设置适当的环境变量来指定驱动程序的 Python 版本。如果它不存在，您可以使用提供的 spark-env.sh.template 文件，其中还包含许多其他变量。

以下是用于设置相关 Python 环境变量的 spark-env.sh 文件的简单示例：

#!/usr/bin/env bash

# This file is sourced when running various Spark programs.
export PYSPARK_PYTHON=/usr/bin/python3       
export PYSPARK_DRIVER_PYTHON=/usr/bin/ipython

在这种情况下，它将工作程序/执行程序使用的 Python 版本设置为 Python3，将 Python 的驱动程序版本设置为 iPython，以便更好地工作。

如果您还没有 spark-env.sh 文件，并且不需要设置任何其他变量，那么假设相关 python 二进制文件的路径正确（使用 which 验证），这个文件应该可以满足您的需求。我有一个类似的问题，这解决了它。

如何运行这个文件？

我不得不将 spark-env.sh.template 重命名为 spark-env.sh，然后添加到文件 export PYSPARK_PYTHON=/usr/local/bin/python3 export PYSPARK_DRIVER_PYTHON=/usr/local/bin/python3 的尾部。我必须通过哪个 python3 弄清楚我的 python3 在哪里

Phillip Stich

如果您在较大的组织中运行 Spark 并且无法更新 /spark-env.sh 文件，则导出环境变量可能不起作用。

在运行时提交作业时，您可以通过 --conf 选项添加特定的 Spark 设置。

pyspark --master yarn --[other settings]\ 
  --conf "spark.pyspark.python=/your/python/loc/bin/python"\ 
  --conf "spark.pyspark.driver.python=/your/python/loc/bin/python"

dbustosp

我刚刚遇到了同样的问题，这些是我为了提供 Python 版本而遵循的步骤。我想用 Python 2.7 而不是 2.6 运行我的 PySpark 作业。

转到 $SPARK_HOME 指向的文件夹（在我的例子中是 /home/cloudera/spark-2.1.0-bin-hadoop2.7/）在文件夹 conf 下，有一个名为 spark-env.sh 的文件。如果您有一个名为 spark-env.sh.template 的文件，则需要将该文件复制到一个名为 spark-env.sh 的新文件中。编辑文件并编写接下来的三行 export PYSPARK_PYTHON=/usr/local/bin/python2.7 export PYSPARK_DRIVER_PYTHON=/usr/local/bin/python2.7 export SPARK_YARN_USER_ENV="PYSPARK_PYTHON=/usr/local/bin/python2. 7" 保存并再次启动您的应用程序 :)

这样，如果你下载了新的 Spark 独立版本，你可以设置你想要运行 PySpark 的 Python 版本。

请注意，建议将 cp 文件 spark-env.sh.template 作为新的 spark-env.sh，然后更改新文件，而不是更改模板的名称和内容。该模板应该保留作为参考。

@et_l您是对的，我只是根据您的评论对答案进行了一些修改，谢谢！

trevorp

我遇到了相同的错误消息，并且尝试了上述三种方法。我将结果列为对其他人的补充参考。

更改 spark-env.sh 中的 PYTHON_SPARK 和 PYTHON_DRIVER_SPARK 值对我不起作用。使用 os.environ["PYSPARK_PYTHON"]="/usr/bin/python3.5" os.environ["PYSPARK_DRIVER_PYTHON"]="/usr/bin/python3.5" 更改 python 脚本中的值对我不起作用.更改 ~/.bashrc 中的值就像一个魅力~

Alex Punnen

我在 IPython 中运行它（如 link by Jacek Wasilewski 中所述）并遇到此异常；在 IPython 内核文件中添加 PYSPARK_PYTHON 并使用 jupyter notebook 运行，并开始工作。

vi  ~/.ipython/kernels/pyspark/kernel.json

{
 "display_name": "pySpark (Spark 1.4.0)",
 "language": "python",
 "argv": [
  "/usr/bin/python2",
  "-m",
  "IPython.kernel",
  "--profile=pyspark",
  "-f",
  "{connection_file}"
 ],

 "env": {
  "SPARK_HOME": "/usr/local/spark-1.6.1-bin-hadoop2.6/",
  "PYTHONPATH": "/usr/local/spark-1.6.1-bin-hadoop2.6/python/:/usr/local/spark-1
.6.1-bin-hadoop2.6/python/lib/py4j-0.8.2.1-src.zip",
  "PYTHONSTARTUP": "/usr/local/spark-1.6.1-bin-hadoop2.6/python/pyspark/shell.py
",
  "PYSPARK_SUBMIT_ARGS": "--master spark://127.0.0.1:7077 pyspark-shell",
  "PYSPARK_DRIVER_PYTHON":"ipython2",
   "PYSPARK_PYTHON": "python2"
 }

Rizvi Hasan

我在 Windows 中的独立火花上遇到了同样的问题。我的修复版本是这样的：我的环境变量设置如下

PYSPARK_SUBMIT_ARGS="pyspark-shell"
PYSPARK_DRIVER_PYTHON=jupyter
PYSPARK_DRIVER_PYTHON_OPTS='notebook' pyspark

使用此设置，我在 pyspark 上执行了一个操作并得到以下异常：

Python in worker has different version 3.6 than that in driver 3.5, PySpark cannot run with different minor versions.
Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly set.

要检查我的 spark-worker 正在使用哪个 python 版本，请在 cmd 提示符下点击以下命令。

python --version
Python 3.6.3

这向我展示了 Python 3.6.3。很明显，我的 spark-worker 正在使用 v3.6.3 的系统 python。

现在，当我通过设置 PYSPARK_DRIVER_PYTHON=jupyter 将我的 spark-driver 设置为运行 jupyter 时，我需要检查 jupyter 正在使用的 python 版本。

要执行此检查，请打开 Anaconda Prompt 并点击

python --version
Python 3.5.X :: Anaconda, Inc.

这里得到的 jupyter python 使用的是 v3.5.x。您也可以在任何笔记本中查看此版本（帮助->关于）。

现在我需要将 jupyter python 更新到 v3.6.6 版本。为此，打开 Anaconda Prompt 并点击

康达搜索蟒蛇

这将为您提供 Anaconda 中可用的 python 版本列表。安装你想要的

康达安装 python=3.6.3

现在我有两个相同版本 3.6.3 Spark 的 Python 安装不应该遵守，当我在 Spark-driver 上运行操作时它没有遵守。异常消失了。快乐的编码...

Peter Pan

如果您只想更改当前任务的 python 版本，可以使用以下 pyspark start 命令：

    PYSPARK_DRIVER_PYTHON=/home/user1/anaconda2/bin/python PYSPARK_PYTHON=/usr/local/anaconda2/bin/python pyspark --master ..

Deepesh Rehi

请看下面的片段：

#setting environment variable for pyspark in linux||ubuntu
#goto --- /usr/local/spark/conf
#create a new file named spark-env.sh copy all content of spark-env.sh.template to it
#then add below lines to it, with path to python

PYSPARK_PYTHON="/usr/bin/python3"
PYSPARK_DRIVER_PYTHON="/usr/bin/python3"
PYSPARK_DRIVER_PYTHON_OPTS="notebook --no-browser"
#i was running python 3.6 ||run - 'which python' in terminal to find the path of python

请在发布前检查模板。

OneCricketeer

我有同样的问题，只是忘记激活我的虚拟环境。

George Fisher

我正在使用以下环境

? python --version; ipython --version; jupyter --version
Python 3.5.2+
5.3.0
5.0.0

以下别名对我很有效

alias pyspark="PYSPARK_PYTHON=/usr/local/bin/python3 PYSPARK_DRIVER_PYTHON=ipython ~/spark-2.1.1-bin-hadoop2.7/bin/pyspark --packages graphframes:graphframes:0.5.0-spark2.1-s_2.11"    
alias pysparknotebook="PYSPARK_PYTHON=/usr/bin/python3 PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS='notebook' ~/spark-2.1.1-bin-hadoop2.7/bin/pyspark --packages graphframes:graphframes:0.5.0-spark2.1-s_2.11"

在笔记本中，我设置环境如下

from pyspark.context import SparkContext
sc = SparkContext.getOrCreate()

OneCricketeer

错误

“例外：工作人员中的 Python 2.6 版本与驱动程序 2.7 中的版本不同，PySpark 无法使用不同的次要版本运行”。

修复（针对 Cloudera 环境）

编辑此文件：/opt/cloudera/parcels/cdh5.5.4.p0.9/lib/spark/conf/spark-env.sh

添加这些行： export PYSPARK_PYTHON=/usr/bin/python export PYSPARK_DRIVER_PYTHON=python

Grr

今天上班碰到这个。管理员认为将 Python 2.7 硬编码为 $SPARK_HOME/conf/spark-env.sh 中的 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 是谨慎的做法。不用说，这破坏了我们所有使用任何其他 python 版本或环境的工作（这是我们工作的 90% 以上）。 @PhillipStich 正确地指出，您可能并不总是拥有此文件的写权限，就像我们的情况一样。虽然在 spark-submit 调用中设置配置是一个选项，但另一种选择（在纱线/集群模式下运行时）是将 SPARK_CONF_DIR 环境变量设置为指向另一个配置脚本。在那里你可以设置你的 PYSPARK_PYTHON 和你可能需要的任何其他选项。可以在 spark-env.sh source code on github 中找到模板。

Muser

就我而言（Ubuntu 18.04），我在终端中运行了这段代码：

sudo vim ~/.bashrc

然后将 SPARK_HOME 编辑如下：

export SPARK_HOME=/home/muser/programs/anaconda2019/lib/python3.7/site-packages/pyspark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

通过这样做，我的 SPARK_HOME 将引用我在 site-package 中安装的 pyspark 软件包。

要了解如何使用 vim，请转到 this 链接。

Shaido

跑：

ls -l /usr/local/bin/python*

此示例中的第一行显示了 python3 符号链接。要将其设置为默认的 python 符号链接，请运行以下命令：

ln -s -f /usr/local/bin/python3 /usr/local/bin/python

然后重新加载你的外壳。

Juan José

如果您使用的是 mac，请使用以下命令

export SPARK_HOME=`brew info apache-spark | grep /usr | tail -n 1 | cut -f 1 -d " "`/libexec
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH

export HADOOP_HOME=`brew info hadoop | grep /usr | head -n 1 | cut -f 1 -d " "`/libexec
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native/:$LD_LIBRARY_PATH
export PYSPARK_PYTHON=python3

如果您使用的是其他操作系统，请查看以下链接：https://github.com/GalvanizeDataScience/spark-install

OneCricketeer

我在使用 pycharm 和 spark 时遇到了同样的问题。要修复此错误，我已按照以下步骤进行修复。

单击pycharm菜单栏中的运行选项。单击编辑配置选项。单击环境变量并根据您的位置写下以下行。 PYSPARK_PYTHON=/usr/bin/python3.6; PYSPARK_DRIVER_PYTHON=/usr/bin/python3.6; SPARK_HOME=/home/xxxxxx/桌面/xxxx/spark

如何在 spark 中设置驱动程序的 python 版本？

关注公众号

想领先一步获取最新的外包任务吗？

相似问题

平台

支持

联系我们