当前位置: 欣欣网 > 码农

PySpark题外话(三):PySpark手把手环境搭建

2024-02-22码农

戳蓝字 Python都知道 关注 我哦!

前言

哈喽大家好,我是了不起。

今天手把手的带大家进行PySpark环境的安装及异常问题处理。

Anaconda简介及安装

Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包,Anaconda 的下载文件比较大(约 594 MB)。

你可能已经安装了 Python,那么为什么还需要 Anaconda?有以下3个原因:

  • Anaconda 附带了一大批常用数据科学包,它附带了 conda、Python 和 180 多个科学包及其依赖项。因此你可以立即开始处理数据。

  • 在数据分析中,你会用到很多第三方的包,而conda(包管理器)可以很好的帮助你在计算机上安装和管理这些包,包括安装、卸载和更新包。

  • 针对不同的项目做环境管理,比如不同的pandas版本,不可能同时安装两个 Numpy 版本,你要做的应该是,为每个 Numpy 版本创建一个环境,然后项目的对应环境中工作。这时候conda就可以帮你做到

  • Anaconda 可用于多个平台( Windows、Mac OS X 和 Linux)。可以在Anaconda官网上找到安装程序和安装说明。根据你的操作系统是32位还是64位选择对应的版本下载。

    这里对安装的过程就不过多赘述。Python的开发工具Pycharm也需要安装完成。

    环境搭建

    首先,需要使用conda创建虚拟环境

    conda create --name spark2 python=3.6.2
    conda info -e
    conda activate spark2

    需要修改用户目录下的 .condarc 文件,Windows 用户无法直接创建名为 .condarc 的文件,可先执行

    conda config --set show_channel_urls yes

    生成该文件之后再修改。

    修改.condarc 去掉default ,让下载走清华加速channel

    #添加镜像源
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2

    切换环境

    conda activate spark2

    安装pyspark

    conda install pyspark=2.3.0

    问题处理

    通过以上的方式,我们已经搭建好了一个PySpark的运行环境,但当我们使用代码真正连接Hadoop集群是,发现系统会报「Could not locate executable null\bin\winutils.exe in the Hadoop binaries」的错误,这其实是因为本地环境没有配置hadoop包引起的。

    这时我们需要一个hadoop3.1.1的zip包,官网如果下载速度可以从网上公共资源的地方下载一个。

    解压缩到本次磁盘后,需要配置环境变量

    HADOOP_HOME 包全路径
    PATH 添加 %HADOOP_HOME%\bin

    还有个很常见的问题是「Unable to locate hive jars to connect to metastore. Please set spark.sql.hive.metastore.jars.」,这是犹豫当前本地的jdk版本与hadoop版本不一致引起的,已当前的hadoop版本需要本地使用jdk1.8进行连接。

    总结

    今天给大家带来的是PySpark的环境搭建与问题处理,完成后就可以愉快的进行大数据开发了。

    如果您喜欢我的文章,可以持续关注,后续文章更精彩,敬请期待。

    结尾提一下

    大家知道,我们在 ChatGPT 出来的第一时间就保持关注,然后整个公司全部投入到 AI+变现的领域。

    可以说,去年我们做的事情,都是和AI+相关,所以当 Sora 出现后,我们也第一时间保持了关注。

    第一时间整理了市面上最全的 Sora 学习资料,覆盖介绍、未来变现玩法、各路观点、技术解读等等,还创建了交流群。

    大家如果想领取这份资料,可以加我的微信回复: 111 ,我会免费将整理的这份资料大全分享给大家。

    需要提醒大家的是,Sora 目前还没有完全开放,任何市面上付费的一些课程,都请大家谨慎选择。

    可以确定的是:未来10-20年,一定是 AI 的大风口、大时代,如果错过了公众号、错过了抖音、错过了小红书。

    请一定不要错过 AI +。

    在这个史诗级别的超级大风口下,普通人只需要抓住其中的一个小点,即可实现人生自由、财富自由。

    希望,大家都能够抓住这一波。

    PS Python都知道技术交流群(技术交流、摸鱼、白嫖课程为主)又不定时开放了,感兴趣的朋友,可以在下方公号内回复: 666 ,即可进入。

    老规矩 ,道友们还记得么, 右下角的 「在看」 点一下 如果感觉文章内容不错的话,记得分享朋友圈让更多的人知道!