python實現(xiàn)Excel數據的探索和清洗
數據的探索和清洗
1、讀取Excel文件的數據并轉換為dataframe
#1.讀取Excel文件的數據并轉換為dataframe
file="d:/test/Summary/Data_Summary.xlsx"
data_raw=pd.read_excel(file,header=0,index_col=0)
#header設定為0:是為了使第1行的數據成為列的字段名
2、查看數據集的整體狀態(tài),了解基本特征列的情況
data_raw.head()
3、刪除無效的數據列
remove_col=["序號"]
data_prep0=data_raw.drop(columns=remove_col,axis=1,inplace=None)
data_prep0.head()
4、查看數據集的整體信息,了解缺失值的分布情況
data_prep0.info()
5、檢看數據集中缺失值的狀態(tài)并刪除缺失值
data_prep=data_prep0.dropna(subset=["產品"],axis=0)
data_prep.info()
6、檢查數據集中重復值的狀態(tài)并刪除重復值
print("數據集中的重復值數量:",np.sum(data_prep.duplicated()))
#如果重復值的數量不為"0",則表示有重復值存在,可使用下列代碼刪除
#data_prep.drop_duplicates(keep="first",inplace=True)
以上就是Python實現(xiàn)Excel數據的探索和清洗,希望能對大家有所幫助。更多Python學習教程請關注IT培訓機構:千鋒教育。