轉自: Python數據科學
klib提供了一系列非常易於
套用的函式
,具有合理的預設值,幾乎可以用在任何DataFra
me上,用
於評估數據品質、獲得靈感、執行數據清洗和視覺化,從而更輕便、更高效的處理Python Pandas DataFrame數據。
klib視覺化數據
例如,cat_plot,
例如,展示缺省值,
klib.missingval_plot(df_cleaned)
再例如,corr_interactive_plot基於plotly構建互動式相關性圖表,
klib.corr_interactive_plot(df, annot=False, figsize=(20,17))
klib清洗數據
主要包含如下函式,
-klib.data_cleaning(df) # 執行數據清洗(刪除重復項和空行/列,調整數據型別等)
-klib.clean_column_names(df) # 清理和標準化列名,也在 data_cleaning() 中呼叫
-klib.convert_datatypes(df) # 將現有數據轉換為更高效的數據型別,也在 data_cleaning() 中呼叫
-klib.drop_missing(df) # 刪除缺失值,也在 data_cleaning() 中呼叫
-klib.mv_col_handling(df) # 基於資訊內容刪除缺失值比率高的特征
-klib.pool_duplicate_subsets(df) # 基於最小資訊損失匯總具有重復項的列子集
不一一舉例,開源地址👉https://github.com/akanz1/klib
推薦閱讀點選標題可跳轉
1、
2、
3、