Python近幾年十分流行,不少小伙伴都來學(xué)習(xí)Python了,都知道Python有幾大方向,如爬蟲、Python開發(fā)工程師、數(shù)據(jù)分析、人工智能等,本篇針對數(shù)據(jù)分析學(xué)科,給大家講解Numpy和Pandas函數(shù),使用高效函數(shù)會使數(shù)據(jù)分析更為容易、簡單,請看下文:
Numpy的高效函數(shù)
1、argpartition():借助它,Numpy可以找出N個最大數(shù)值的索引,也會將找到的索引進(jìn)行輸出,進(jìn)而根據(jù)需要對數(shù)值進(jìn)行排序。
2、allclose():適用于匹配兩個數(shù)組,進(jìn)而得到布爾值表示的輸出。如果在一個范圍內(nèi)(withinatolerance)兩個數(shù)組不等同,則會返回False。該函數(shù)對于檢查兩個數(shù)組是否相似非常有用。
3、clip():使一個數(shù)組中的數(shù)值保持在區(qū)間內(nèi)。在需要保證數(shù)值在上下限范圍的情況下,可以借助clip()函數(shù)實(shí)現(xiàn)該目的。
4、extract():它是在特定條件下從一個數(shù)組中提取特定元素,還可以使用and和or等條件。
5、where():用于從一個數(shù)組中返回滿足條件的數(shù)據(jù)。比如,它會返回滿足條件的數(shù)據(jù)的索引位置。
6、percentile():用于計算特定軸方向上數(shù)組元素的第n個百分位數(shù)。
Pandas的高效函數(shù)
1、read_csv:大多數(shù)新手都會犯的一個錯誤是,在不需要.csv文件的情況下仍會完整地讀取它。如果一個未知的.csv文件有10GB,那么讀取整個.csv文件將會非常不明智,不僅要占用大量內(nèi)存,還會花很多時間。我們需要做的只是從.csv文件中導(dǎo)入幾行,之后根據(jù)需要繼續(xù)導(dǎo)入。
2、map():根據(jù)輸入來映射Series的值。用于將一個Series中的每個值替換為另一個值。
3、apply():允許用戶傳遞函數(shù),并將其應(yīng)用于Pandas序列中的每個值。
4、isin():用于過濾數(shù)據(jù)幀。Isin()有助于選擇特定列中具有特定(或多個)值的行。
5、copy():用于復(fù)制Pandas對象。當(dāng)一個數(shù)據(jù)分配給另一個數(shù)據(jù)時,如果其中一個數(shù)據(jù)進(jìn)行了修改,另一個數(shù)據(jù)的值也會發(fā)生改變。這種時候就可以使用copy()函數(shù)。
6、select_dtypes():這個函數(shù)的參數(shù)可設(shè)置為包含所擁有特定數(shù)據(jù)類型的列,也可以設(shè)置為排除具有特定數(shù)據(jù)類型的列。