如果每個(gè)數(shù)據(jù)元素只出現(xiàn)一次,而且只出現(xiàn)在某一臺(tái)機(jī)器中,那么可以采取以下步驟統(tǒng)計(jì)出現(xiàn)次數(shù)TOP10的數(shù)據(jù)元素:
堆排序:在每臺(tái)電腦上求出TOP10,可以采用包含10個(gè)元素的堆完成(TOP10小,用最大堆,TOP10大,用最小堆,比如求TOP10大,我們首先取前10個(gè)元素調(diào)整成最小堆,如果發(fā)現(xiàn),然后掃描后面的數(shù)據(jù),并與堆頂元素比較,如果比堆頂元素大,那么用該元素替換堆頂,然后再調(diào)整為最小堆。最后堆中的元素就是TOP10大)。
求出每臺(tái)電腦上的TOP10后,然后把這100臺(tái)電腦上的TOP10組合起來(lái),共1000個(gè)數(shù)據(jù),再利用上面類(lèi)似的方法求出TOP10就可以了。 但如果同一個(gè)元素重復(fù)出現(xiàn)在不同的電腦中呢,如下例子所述, 這個(gè)時(shí)候,你可以有兩種方法:
1. 遍歷一遍所有數(shù)據(jù),重新hash取摸,如此使得同一個(gè)元素只出現(xiàn)在單獨(dú)的一臺(tái)電腦中,然后采用上面所說(shuō)的方法,統(tǒng)計(jì)每臺(tái)電腦中各個(gè)元素的出現(xiàn)次數(shù)找出TOP10,繼而組合100臺(tái)電腦上的TOP10,找出最終的TOP10。
2. 或者,暴力求解: 直接統(tǒng)計(jì)統(tǒng)計(jì)每臺(tái)電腦中各個(gè)元素的出現(xiàn)次數(shù),然后把同一個(gè)元素在不同機(jī)器中的出現(xiàn)次數(shù)相加,最終從所有數(shù)據(jù)中找出TOP10。