当前位置: 欣欣网 > 码农

klib,一个加速数据清洗的神器!

2024-01-22码农

转自: Python数据科学

klib提供了一系列非常易于 应用的函数 ,具有合理的默认值,几乎可以用在任何DataFra me上,用 于评估数据质量、获得灵感、执行数据清洗和可视化,从而更轻便、更高效的处理Python Pandas DataFrame数据。

klib可视化数据

例如,cat_plot,

例如,展示缺省值,

klib.missingval_plot(df_cleaned)

再例如,corr_interactive_plot基于plotly构建交互式相关性图表,

klib.corr_interactive_plot(df, annot=False, figsize=(20,17))

klib清洗数据

主要包含如下函数,

-klib.data_cleaning(df) # 执行数据清洗(删除重复项和空行/列,调整数据类型等)
-klib.clean_column_names(df) # 清理和标准化列名,也在 data_cleaning() 中调用
-klib.convert_datatypes(df) # 将现有数据转换为更高效的数据类型,也在 data_cleaning() 中调用
-klib.drop_missing(df) # 删除缺失值,也在 data_cleaning() 中调用
-klib.mv_col_handling(df) # 基于信息内容删除缺失值比率高的特征
-klib.pool_duplicate_subsets(df) # 基于最小信息损失汇总具有重复项的列子集

不一一举例,开源地址👉https://github.com/akanz1/klib

推荐阅读点击标题可跳转

1、

2、

3、