戳蓝字 「 Python都知道 」 关注 我哦!
前言
哈喽大家好,我是了不起。
今天手把手的带大家进行PySpark环境的安装及异常问题处理。
Anaconda简介及安装
Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包,Anaconda 的下载文件比较大(约 594 MB)。
你可能已经安装了 Python,那么为什么还需要 Anaconda?有以下3个原因:
Anaconda 附带了一大批常用数据科学包,它附带了 conda、Python 和 180 多个科学包及其依赖项。因此你可以立即开始处理数据。
在数据分析中,你会用到很多第三方的包,而conda(包管理器)可以很好的帮助你在计算机上安装和管理这些包,包括安装、卸载和更新包。
针对不同的项目做环境管理,比如不同的pandas版本,不可能同时安装两个 Numpy 版本,你要做的应该是,为每个 Numpy 版本创建一个环境,然后项目的对应环境中工作。这时候conda就可以帮你做到
Anaconda 可用于多个平台( Windows、Mac OS X 和 Linux)。可以在Anaconda官网上找到安装程序和安装说明。根据你的操作系统是32位还是64位选择对应的版本下载。
这里对安装的过程就不过多赘述。Python的开发工具Pycharm也需要安装完成。
环境搭建
首先,需要使用conda创建虚拟环境
conda create --name spark2 python=3.6.2
conda info -e
conda activate spark2
需要修改用户目录下的 .condarc 文件,Windows 用户无法直接创建名为 .condarc 的文件,可先执行
conda config --set show_channel_urls yes
生成该文件之后再修改。
修改.condarc 去掉default ,让下载走清华加速channel
#添加镜像源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
切换环境
conda activate spark2
安装pyspark
conda install pyspark=2.3.0
问题处理
通过以上的方式,我们已经搭建好了一个PySpark的运行环境,但当我们使用代码真正连接Hadoop集群是,发现系统会报「Could not locate executable null\bin\winutils.exe in the Hadoop binaries」的错误,这其实是因为本地环境没有配置hadoop包引起的。
这时我们需要一个hadoop3.1.1的zip包,官网如果下载速度可以从网上公共资源的地方下载一个。
解压缩到本次磁盘后,需要配置环境变量
HADOOP_HOME 包全路径
PATH 添加 %HADOOP_HOME%\bin
还有个很常见的问题是「Unable to locate hive jars to connect to metastore. Please set spark.sql.hive.metastore.jars.」,这是犹豫当前本地的jdk版本与hadoop版本不一致引起的,已当前的hadoop版本需要本地使用jdk1.8进行连接。
总结
今天给大家带来的是PySpark的环境搭建与问题处理,完成后就可以愉快的进行大数据开发了。
如果您喜欢我的文章,可以持续关注,后续文章更精彩,敬请期待。
结尾提一下
大家知道,我们在 ChatGPT 出来的第一时间就保持关注,然后整个公司全部投入到 AI+变现的领域。
可以说,去年我们做的事情,都是和AI+相关,所以当 Sora 出现后,我们也第一时间保持了关注。
第一时间整理了市面上最全的 Sora 学习资料,覆盖介绍、未来变现玩法、各路观点、技术解读等等,还创建了交流群。
大家如果想领取这份资料,可以加我的微信回复: 111 ,我会免费将整理的这份资料大全分享给大家。
需要提醒大家的是,Sora 目前还没有完全开放,任何市面上付费的一些课程,都请大家谨慎选择。
可以确定的是:未来10-20年,一定是 AI 的大风口、大时代,如果错过了公众号、错过了抖音、错过了小红书。
请一定不要错过 AI +。
在这个史诗级别的超级大风口下,普通人只需要抓住其中的一个小点,即可实现人生自由、财富自由。
希望,大家都能够抓住这一波。
PS : Python都知道技术交流群(技术交流、摸鱼、白嫖课程为主)又不定时开放了,感兴趣的朋友,可以在下方公号内回复: 666 ,即可进入。
老规矩 ,道友们还记得么, 右下角的 「在看」 点一下 , 如果感觉文章内容不错的话,记得分享朋友圈让更多的人知道!