pyspark dataframe api速览
2021-06-10 08:04
标签:esc 限制 items top oca row rac mit sort 快速了解dataframe 提供的功能. 避免重复工作 相关性 删除 选择 排序 存储 修改 展示/统计 聚合 other 附录 df.sort(df.age.desc()).collect() pyspark dataframe api速览 标签:esc 限制 items top oca row rac mit sort 原文地址:https://www.cnblogs.com/wuchengze/p/10611546.html版本 spark 2.2
cov 皮尔逊相关系数
corr 方差
dropDuplicates 可指定列
dropna 可指定列
select
selectExpr 支持 sql 表达式的select
colRegex 正则表达式选择列
where
filter
exceptAll 在df1不在df2
union 并 根据列index
unionByName 根据列名union
subtract 差
intersect 交, 不去重
intersectAll 去重
limit
first
head
take
randomSplit 比例切分
sample 采样
sampleBy 根据列值采样 只支持一列
orderBy
sort 支持多种写法 见附录
sortWithinPartitions
cache
registerTempTable
coalesce 存储分块 对比!!
repartition 存储分块
repartitionByRange 根据给定表达式partition
write 支持多种mode, 自定义partition nums 也可以自己写一个connector例如tfrecord connector
writeStream
toDF
toJSON
toPandas 注意excutor要装过pandas 自己当做package传上去可能会由于大小受限制
checkpoint 版本存储
localCheckpoint
persist
unpersist
withColumn
withColumnRenamed
replace 支持多值替换, 类型必须相同
fillna
na
show truncate每列展示值作截断, vertical 垂直展示
schema
stat
dtypes
describe 对比
summary
printSchema
rollup 根据所有列组合groupby and agg
freqItems
foreach shorthand for df.rdd.foreach()
foreachPartition
groupby
agg
toLocalIterator
approxQuantile
explain
hint
isLocal
isStreaming
withWatermark
sort
[Row(age=5, name=‘Bob‘), Row(age=2, name=‘Alice‘)]
df.sort("age", ascending=False).collect()
[Row(age=5, name=‘Bob‘), Row(age=2, name=‘Alice‘)]
df.orderBy(df.age.desc()).collect()
[Row(age=5, name=‘Bob‘), Row(age=2, name=‘Alice‘)]
from pyspark.sql.functions import *
df.sort(asc("age")).collect()
[Row(age=2, name=‘Alice‘), Row(age=5, name=‘Bob‘)]
df.orderBy(desc("age"), "name").collect()
[Row(age=5, name=‘Bob‘), Row(age=2, name=‘Alice‘)]
df.orderBy(["age", "name"], ascending=[0, 1]).collect()
[Row(age=5, name=‘Bob‘), Row(age=2, name=‘Alice‘)]
文章标题:pyspark dataframe api速览
文章链接:http://soscw.com/index.php/essay/93059.html