python中使用K-means算法
k-means是機(jī)器學(xué)習(xí)中最常用的聚類算法,關(guān)于k-means算法的數(shù)學(xué)原理、算法、偽碼等已有相當(dāng)豐富的文獻(xiàn),在此不再贅述。
1、調(diào)用以下庫
importnumpyasnp#用于抽樣和生成隨機(jī)數(shù)
fromsklearn.clusterimportKMeans#sklearn自帶的Kmeans算法,用于嚴(yán)重本文算法結(jié)果是否正確
importmatplotlib.pyplotasplt#結(jié)果可視化
importsys#需要用到sys.exit()函數(shù)
若不需要驗證聚類結(jié)果是否可以不使用Sklearn庫。
2、生成用于訓(xùn)練的隨機(jī)數(shù)據(jù)
np.set_printoptions(suppress=True)#令numpy的結(jié)果不以科學(xué)計數(shù)法的方式輸出
Data=np.array([[1.0,2.0],[1.5,1.8],[3,4],[6,8],[8,8],[1,0.6],
[9,11],[7,10]])#你也可以通過抽樣的方式來更快的獲得測試數(shù)據(jù)
3、定義用于選擇隨機(jī)初始點和簇數(shù)(k)的函數(shù)
defK_means(data,k):
globalMean
mean=[]
a=np.max(data[:,0])
b=np.min(data[:,0])
c=np.max(data[:,1])
d=np.min(data[:,1])
foriinrange(k):
x=np.random.uniform(a,b,1)
#此處返回array
y=np.random.uniform(c,d,1)#此處返回array
mean.append([float(x),float(y)])
Mean=np.array(mean)
returnMean
在上面的代碼中,為了限定初始點(x,y)的位置不會超出樣本點的范圍,因此均勻抽樣的上下限是指訓(xùn)練數(shù)據(jù)(a,b)和(c,d)的最小橫距。
4、定義可視化函數(shù),繪制測試數(shù)據(jù)散點圖
defvision(data,cell):
plt.figure(figsize=(12,6))
ax1=plt.subplot(121)
ax1.scatter(Data[:,0],Data[:,1])#原始數(shù)據(jù)散點圖
ax1.scatter(point[:,0],point[:,0])#同時將隨機(jī)選取的初始點表示出來
plt.xlabel("x")
plt.ylabel("y")
plt.title("scatterof"+"rural"+"data")
ax2=plt.subplot(122)
ax2.scatter(Data[:,0],Data[:,1])#原始數(shù)據(jù)散點圖
ax2.scatter(data[:,0],data[:,1])#經(jīng)過迭代后最終確定的聚類點
plt.xlabel("x")
plt.ylabel("y")
plt.title("scatterof"+cell+"data")
plt.show()
聚類結(jié)果的可視化對于判斷聚類結(jié)果的準(zhǔn)確性至關(guān)重要。
5、定義迭代過程,通過不斷計算各個樣本對聚類點的歐式聚類,來不斷更新聚類點
defiteration(Data,point):
A=[]
B=[]
foriinrange(len(Data)):
d1=np.sqrt(sum(pow(Data[i]-point[0],2)))
d2=np.sqrt(sum(pow(Data[i]-point[1],2)))
ifd1>d2:
A.append(list(Data[i]))
else:
B.append(list(Data[i]))
iflen(A)==len(Data)orlen(B)==len(Data):
print("初始化錯誤")
sys.exit(0)
new_x1=np.mean(np.array(A)[:,0])
new_y1=np.mean(np.array(A)[:,1])
new_x2=np.mean(np.array(B)[:,0])
new_y2=np.mean(np.array(B)[:,1])
new_point=np.array([[new_x1,new_y1],[new_x2,new_y2]])
returnnew_point
注意,上段代碼中加入了一個if語句
iflen(A)==len(Data)orlen(B)==len(Data):
print("初始化錯誤")
sys.exit(0)
由于初始點是隨機(jī)產(chǎn)生的,所以這個條件語句是非常必要的,因此有可能所有的樣本點都只接近一個聚類中心而遠(yuǎn)離另一個聚類中心,這樣就不能形成兩個聚類中心,程序?qū)箦e,因此我們需要排除出現(xiàn)這種情況的可能性。一旦所有樣本點都接近一個聚類中心時令程序停止。
以上就是Python中使用K-means算法,希望能對大家有所幫助!更多Python學(xué)習(xí)教程請關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。