1.错误发生在从hdfs下载csv文件到本地,利用pandas读取报错
Pandas 错误记录
出现此错误的原因是因为输入文件的路径是文件夹路径,而不是文件本身。
查看本地文件,果然data_rh.csv是个假数据文件打开里面有很多小文件。
Pandas 错误记录
主要是利用spark df.write.format(“csv”).save("/tmp/myFile.csv") 保存的是一个myFile.csv的文件夹,有两个问题:

  • hadoop fs -get 命令得到是一堆文件。
  • 文件都是以snappy格式压缩的

第一个问题,可以使用coalesce进行合并,df.coalesce(1).write.option(“header”, “true”).csv(“myFile.csv”)
这样的写法同样会产生一个myFile.csv的文件夹,但其中的数据会全部保存到单个csv文件中
第二个问题,由于我使用的是sparkmagic,所以默认压缩是snappy, 可以在csv的compression参数进行设置。

df.coalesce(1)\   .write.option("header", "true")\   .csv(path="myFile.csv", compression="none") 

热门文章

2月28日更新19.9M/S,2025年最新高速V2ray/Clash/SSR/Shadowrocket订阅链接免费节点地址分享

这一次的节点更新覆盖了加拿大、美国、欧洲、香港、新加坡、韩国、日本等地区,最高速度可达19.9 M/S。只需复制下方的Clash/v2ray订阅链接,在客户端添加后即可正常使用。

2月7日更新22.2M/S,2025年最新高速Clash/Shadowrocket/SSR/V2ray订阅链接免费节点地址分享

这一次的节点更新覆盖了香港、新加坡、日本、加拿大、韩国、美国、欧洲等地区,最高速度可达22.2 M/S。只需复制下方的Clash/v2ray订阅链接,在客户端添加后即可正常使用。

天津哪能领养狗狗(天津哪里可以领养宠物狗)

摘要: 本篇文章给大家谈谈天津哪能领养狗狗,以及天津哪里可以领养宠物狗对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。本文目录一览:1、天津市津南区小站镇这里有流浪狗狗救助站吗...

动物疫病预防控制中心好不好(动物疫病防治站)

摘要: 今天给各位分享动物疫病预防控制中心好不好的知识,其中也会对动物疫病防治站进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览:1、动物疫病预防控制中.

不能养的猫品种(不能养的猫品种有哪些)

摘要: 今天给各位分享不能养的猫品种的知识,其中也会对不能养的猫品种有哪些进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览:1、世界十大禁养名猫是什么?.

PowerShell中的复制项目用于什么?

PowerShell cmdlet中的Copy-Item用于将项目从一个位置复制到同一命名空间中的另一位置。在这里,命名空间的含义是,您可以将项目从文件复制到其他文件夹,但不能将文件复制到注册表或证书

宠物领养协议书范本最新下载电子版(宠物领养协议简单版本)

摘要: 本篇文章给大家谈谈宠物领养协议书范本最新下载电子版,以及宠物领养协议简单版本对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。本文目录一览:1、狗狗领养合同怎么写...

取消动物防疫收费通知范文(取消动物防疫收费通知范文怎么写)

摘要: 本篇文章给大家谈谈取消动物防疫收费通知范文,以及取消动物防疫收费通知范文怎么写对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。本文目录一览:1、幼儿园寒假作业收费通知怎么..

1月8日更新19M/S,2025年最新高速SSR/Clash/Shadowrocket/V2ray订阅链接免费节点地址分享

这一次的节点更新覆盖了欧洲、美国、新加坡、韩国、加拿大、日本、香港等地区,最高速度可达19 M/S。只需复制下方的Clash/v2ray订阅链接,在客户端添加后即可正常使用。

兽药全国50强企业(兽药全国50强企业名单)

摘要: 本篇文章给大家谈谈兽药全国50强企业,以及兽药全国50强企业名单对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。本文目录一览:1、大北农兽药怎么样2、... 本

归纳