當前位置: 妍妍網 > 碼農

klib,一個加速數據清洗的神器!

2024-01-22碼農

轉自: Python數據科學

klib提供了一系列非常易於 套用的函式 ,具有合理的預設值,幾乎可以用在任何DataFra me上,用 於評估數據品質、獲得靈感、執行數據清洗和視覺化,從而更輕便、更高效的處理Python Pandas DataFrame數據。

klib視覺化數據

例如,cat_plot,

例如,展示缺省值,

klib.missingval_plot(df_cleaned)

再例如,corr_interactive_plot基於plotly構建互動式相關性圖表,

klib.corr_interactive_plot(df, annot=False, figsize=(20,17))

klib清洗數據

主要包含如下函式,

-klib.data_cleaning(df) # 執行數據清洗(刪除重復項和空行/列,調整數據型別等)
-klib.clean_column_names(df) # 清理和標準化列名,也在 data_cleaning() 中呼叫
-klib.convert_datatypes(df) # 將現有數據轉換為更高效的數據型別,也在 data_cleaning() 中呼叫
-klib.drop_missing(df) # 刪除缺失值,也在 data_cleaning() 中呼叫
-klib.mv_col_handling(df) # 基於資訊內容刪除缺失值比率高的特征
-klib.pool_duplicate_subsets(df) # 基於最小資訊損失匯總具有重復項的列子集

不一一舉例,開源地址👉https://github.com/akanz1/klib

推薦閱讀點選標題可跳轉

1、

2、

3、