今天給大家介紹的是Python當(dāng)中三個非常神奇的方法:map、reduce和filter。
不知道大家看到map和reduce的時候有沒有什么感覺,如果看過之前我們大數(shù)據(jù)系列介紹MapReduce文章的同學(xué),想必有些印象。這個MapReduce不是一個分布式的計算方法么,怎么又變成Python中的方法了?其實原因很簡單,因為Python是一門很年輕的語言,它在發(fā)展的過程當(dāng)中吸收了很多其他領(lǐng)域的精華,MapReduce就是其中之一。
對之前文章感興趣的同學(xué)可以點擊下方的鏈接,回顧一下之前MapReduce的內(nèi)容。
大數(shù)據(jù)基石——Hadoop與MapReduce
mapmap除了地圖之外,另一個英文本意是映射。在C++和Java一些語言當(dāng)中,將map進(jìn)一步引申成了存儲key和value映射結(jié)構(gòu)的容器。Python對這點做了區(qū)分,KV結(jié)構(gòu)的容器命名成了dict,即字典,而map則回到了它的本意,也就是映射。
我們都知道,在數(shù)學(xué)領(lǐng)域,映射也是函數(shù)的定義。一個自變量通過某種映射,對應(yīng)到一個因變量。同樣,在Python當(dāng)中,map操作本質(zhì)也是函數(shù),不過它作用的范圍不再是單個變量,而是一個序列。換句話說,通過map我們可以省去循環(huán)操作,可以自動將一個容器當(dāng)中的元素套用一個函數(shù)。
舉個簡單的例子,比如我們有一個坐標(biāo),我們希望知道它距離原點的距離。這個問題很簡單,我們寫一個計算距離的函數(shù)就可以解決:
defdis(point):
returnmath.sqrt(point[0]**2+point[1]**2)
那如果我有多個點需要計算距離,在map出現(xiàn)之前,我們只能用循環(huán)來解決問題:
points=[[0,1],[2,4],[3,2]]
forpointinpoints:
print(dis(point))
但是有了map之后,我們可以省去循環(huán)的操作,整個代碼簡化成了一行:
map(dis,points)
但是要注意,我們調(diào)用完map之后得到的結(jié)果不是一個list而是一個迭代器。我們直接將map返回的內(nèi)容print出來,可以得到這樣一個結(jié)果:
>>>print(map(dis,points))
這是一個類的標(biāo)準(zhǔn)輸出,其實它返回的不是最后的結(jié)果,而是一個迭代器。我們在之前的文章當(dāng)中已經(jīng)介紹過了迭代器和生成器的相關(guān)概念,這里不多做贅述了,遺忘的同學(xué)可以點擊下方鏈接回顧一下之前的內(nèi)容:
Python——五分鐘帶你弄懂迭代器與生成器
我們想要獲得完整的內(nèi)容也很容易,我們只需要將它轉(zhuǎn)化成list類型即可:
>>>print(list(map(dis,points)))
[1.0,4.47213595499958,3.605551275463989]
以上過程還可以進(jìn)一步簡化,還記得我們之前介紹過的匿名函數(shù)嗎?由于dis函數(shù)在我們的程序當(dāng)中只會在map中用到,我們完全沒有必要單獨創(chuàng)建一個函數(shù),我們可以直接傳入一個匿名函數(shù)搞定運算:
map(lambdax:math.sqrt(x[0]**2+x[1]**2),points)
簡單總結(jié)一下,map操作其實執(zhí)行的是一個映射。它可以自動地將一個序列當(dāng)中的內(nèi)容通過制定的函數(shù)映射成另一個序列,從而避免顯式地使用循環(huán)來調(diào)用,在很多場景下可以大大地簡化代碼的編寫,可以很方便地將一個序列整體轉(zhuǎn)變成另一個結(jié)果。
reduce相比于map,reduce的操作稍稍難理解一點點。它也是規(guī)定一個映射,不過不是將一個元素映射成一個結(jié)果。而是將兩個元素歸并成一個結(jié)果。并且它并不是調(diào)用一次,而是依次調(diào)用,直到最后只剩下一個結(jié)果為止。
比如說我們有一個數(shù)組[a,b,c,d]和一個函數(shù)f,我們計算reduce(f,[a,b,c,d])其實就等價于f(f(f(a,b),c),d)。和map不同的是,reduce最后得到一個結(jié)果,而不是一個迭代器或者是list。
我們光說有些抽象,不妨來看一個例子,就看最簡單的一個例子:reduce函數(shù)接收兩個數(shù),返回兩個數(shù)的和。那么顯然,我們依次調(diào)用reduce,得到的就是原數(shù)組的和。
fromfunctoolsimportreduce
deff(a,b):
returna+b
print(reduce(f,[1,2,3,4]))
最終得到的結(jié)果當(dāng)然是10,同樣,我們也可以將reduce中的方法定義成匿名函數(shù),一樣不影響最終的結(jié)果。
print(reduce(lambdax,y:x+y,[1,2,3,4]))
MapReduce既然我們map和reduce都有了,顯然我們可以將它們串聯(lián)起來使用,也就是分布式系統(tǒng)當(dāng)中MapReduce的做法。雖然如果不手動使用線程池的話,Python并不會起多個線程來加速運算,但是至少可以簡化我們實現(xiàn)的代碼。我們還是舉經(jīng)典的wordCount的例子,也就是文本計算詞頻。
套用map和reduce的功能,整個流程非常清晰,我們只需要在map階段對文本進(jìn)行分詞,在reduce階段對分詞之后的結(jié)果進(jìn)行匯總即可。
聽著好像非常容易,但是你實際去上手是寫不出來的。原因也很簡單,因為hadoop當(dāng)中的Map和Reduce中間還有一層shuffle的操作,會自動地將key值相同的結(jié)果放到同一個reducer當(dāng)中。在這個問題當(dāng)中,key自然就是我們的word,由于相同的word被放到同一個reducer當(dāng)中,我們只需要累加就行了。但是如果我們自己編寫mapreduce的話,由于缺少了中間數(shù)據(jù)重排的步驟,所以導(dǎo)致不能實現(xiàn)。
要解決也簡單,我們可以人為增加一個map階段代替hadoop當(dāng)中的重排。相當(dāng)于做了一個MapMapReduce,我們來看代碼:
fromcollectionsimportCounter,defaultdict
texts=['applebearpeachgrape','grapeorangepear']
#第一次map,將字符串轉(zhuǎn)成數(shù)組,每個單詞對應(yīng)1
defmp1(text):
ret=[]
words=text.split('')
forwordinwords:
ret.append((word,1))
returnret
#第二次map,將數(shù)組轉(zhuǎn)成dict
defmp2(arr):
d=defaultdict(int)
fork,vinarr:
d[k]+=v
returnd
#reduce,合并dict
defrd(x,y):
x.update(y)
returnx
print(reduce(rd,map(mp2,map(mp1,texts))))
那如果我們不用多次MapReduce呢?也不是沒有辦法,需要取點巧,方法也簡單只要使用之前我們講解過的Counter類,就可以完美解決這個問題。我們來看代碼:
fromcollectionsimportCounter
texts=['applebearpeachgrape','grapeorangepear']
defmp(text):
words=text.split('')
returnCounter(words)
print(reduce(lambdax,y:x+y,map(mp,texts)))
由于我們使用了Counter,所以我們在map階段返回的結(jié)果就已經(jīng)是詞頻的dict了,而在reduce階段我們只需要將它們?nèi)坷奂悠饋砭蚈K了。
最后,我們來看下filter。
filterfilter的英文是過濾,所以它的使用就很明顯了。它的用法和map有些類似,我們編寫一個函數(shù)來判斷元素是否合法。通過調(diào)用filter,會自動將這個函數(shù)應(yīng)用到容器當(dāng)中所有的元素上,最后只會保留運行結(jié)果是True的元素,而過濾掉那些是False的元素。
舉個例子,假設(shè)我們想要保留list當(dāng)中的奇數(shù)而過濾掉偶數(shù),我們當(dāng)然可以直接操作,比如:
arr=[1,3,2,4,5,8]
[iforiinarrifi%2>0]
而使用filter會非常方便:
list(filter(lambdax:x%2>0,arr))
從這個例子當(dāng)中可能看不出便捷,但是有的時候判斷的條件可能非常復(fù)雜,我們判斷的邏輯不能簡單地在list定義當(dāng)中表達(dá)出來,這個時候使用filter則會容易得多。
最后,我們再看一個類似的用法。在itertools當(dāng)中有一個方法叫做compress,通過compress我們可以實現(xiàn)根據(jù)一個序列的條件過濾另一個序列。
舉個簡單的例子,假設(shè),我們有兩個數(shù)組:
student=['xiaoming','xiaohong','xiaoli','emily']
scores=[60,70,80,40]
我們想要獲取所有考試及格的同學(xué)的list,如果用常規(guī)做法基本上免不了使用循環(huán),但是使用compress可以很方便地通過一行代碼實現(xiàn):
fromitemtoolsimportcompress
>>>pass=[i>60foriinscores]
>>>print(pass)
[False,True,True,False]
>>>list(compress(student,pass))
['xiaohong','xiaoli']
需要注意的是filter和compress返回的都是一個迭代器,我們要獲取它們的值,需要手動轉(zhuǎn)換成list。
雖然在日常的開發(fā)當(dāng)中不使用這三樣神器同樣可以工作,但是用上它們之后,會提升很多代碼的可讀性,節(jié)省很多無用的代碼。尤其是在面試的時候,很有可能就會給面試官留下不一樣的印象,也許結(jié)果也會不同。
以上內(nèi)容為大家介紹了Python之map、reduce和filter,希望對大家有所幫助,如果想要了解更多Python相關(guān)知識,請關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。