在程序設計中,創(chuàng)建物體模塊主要是通過生成對象來實現(xiàn)。當對象使用結束后,則會成為不再需要的模塊進行銷毀。
而在系統(tǒng)進行對象的生成與銷毀過程中會大量的增加內存的消耗,同時對象的銷毀往往會留下殘留的信息,這樣將會伴隨內存泄露的問題存在。
在實際的程序開發(fā)過程中,往往需要生成和銷毀大量重復的對象,這就使得內存泄漏產生的信息過多而無法被系統(tǒng)回收,從而占用系統(tǒng)更多的內存,而且生成物體過多時無法確定被什么模塊實例化實現(xiàn),對系統(tǒng)造成負擔,不利于管理及后續(xù)操作,長此以往最終將導致程序變慢甚至崩潰。
對象池是存放了一批已經創(chuàng)建好的對象的池,它是一個用來維護對象的結構。當程序需要使用對象的時候,可以直接從池中獲取該對象,而不是實例化一個新的對象。
在程序設計過程中,大部分人關注的往往只是對象的使用和效果的實現(xiàn),實際上創(chuàng)建和使用之間還有一個初始化的過程,不過系統(tǒng)會將初始化和創(chuàng)建這兩步結合在了一起,這樣使得設計者忽略了系統(tǒng)創(chuàng)建和銷毀對象這一過程對系統(tǒng)的影響。
通常來講,一個對象的創(chuàng)建和銷毀過程開銷很小,可以忽略不計,但是如果一個程序中涉及到一種對象多次創(chuàng)建,并且創(chuàng)建時間比較長,那就會能很明顯的感覺到這部分的消耗所造成的系統(tǒng)速度受限。
對象池可以看作是減少 GC 壓力的首選方法,同時也是最簡單的方法。
對象池模式主要適用于以下應用場景:
資源受限的場景。比如,不需要可伸縮性的環(huán)境(CPU、內存等物理資源有限),CPU性能不夠強勁,內存比較緊張,垃圾收集,內存抖動會造成比較大的影響,需要提高內存管理效率, 響應性比吞吐量更為重要。
在內存中數(shù)量受限的對象。
創(chuàng)建成本高的對象。
大量的存活期短且初始化成本低的對象池化,以降低內存分配和再分配成本,避免內存碎片。
Python 的這樣的動態(tài)語言,GC 是依靠引用技術來來保證對象不會過早的回收,某些場景下可能出現(xiàn)雖然創(chuàng)建了但是沒人使用的空閑期,導致對象被回收了。可以委托給對象池來保管。
Pond 介紹
Pond 是一個 Python 中高效的通用對象池,具有性能好、內存占用小、命中率高的特點?;诮平y(tǒng)計的根據(jù)頻率自動回收的能力,能夠自動調整每個對象池的空閑對象數(shù)量。
因為目前 Python 目前沒有比較好的、測試用例完備、代碼注釋完備、文檔完善的對象池化庫,同時目前的主流對象池庫也沒有比較智能的自動回收機制。
Pond 可能是 Python 中第一個社區(qū)公開的測試用例完整,覆蓋率 90% 以上、代碼注釋完備、文檔完善的對象池化庫。
Pond 靈感來自于 Apache Commons Pool、Netty Recycler、HikariCP、Caffeine,集合了多家的優(yōu)點。
其次 Pond 通過使用近似計數(shù)的方式以極小的內存空間統(tǒng)計每個對象池的使用頻率,并且自動回收。
流量較為隨機平均的情況下,默認策略和權重可以降低 48.85% 內存占用,借取命中率 100%。
流量較為符合 2/8 定律的情況下,默認策略和權重可以降低 45.7% 內存占用, 借取命中率 100%。
設計概述
Pond 主要由 FactoryDict、Counter、PooledObjectTree 三部分以及一個單獨的回收線程構成。
FactoryDict
使用 Pond 需要實現(xiàn)對象工廠 PooledObjectFactory,PooledObjectFactory 提供對象的創(chuàng)建、初始化、銷毀、驗證等操作,由 Pond 調用。
所以為了讓對象池支持存放完全不同的對象,Pond 使用了一個字典來記錄每個工廠類的名稱和自己實現(xiàn)的工廠類的實例化對象。
每個 PooledObjectFactory 應該具備創(chuàng)建對象、銷毀對象、驗證對象是否還可用、重置對象四個功能。
比較特別的是 Pond 支持自動重置對象,因為某些場景下可能會存在對象中要先賦值進行傳遞,傳遞完又被回收的情況,為了避免污染建議這種場景下無比實現(xiàn)這個功能。
Counter
Counter 中保存了一個近似計數(shù)器。
PooledObjectTree
PooleedObjectTree 是個字典,每個 key 對應著一個先進先出的隊列,這些隊列都是線程安全的。
每個隊列中保存著多個 PooleedObject。PooledObejct 保存了創(chuàng)建時間、最后借出的時間以及實際需要的對象。
線程安全
Pond 的借用和回收都是線程安全的。Python 的 queue 模塊提供了一個適用于多線程編程的先進先出(FIFO)數(shù)據(jù)結構。它可以用來安全地在生產者和消費者線程之間傳遞消息或其他數(shù)據(jù)。
鎖是調用者來處理的,所有多個線程能夠安全且容易的使用同樣的 Queue 實例工作。而 Pond 的借用和回收都是在操作 queue,所以基本可以認為是線程安全的。
借出機制
在使用 Pond 借出一個對象時,會先檢查想要借出的對象的種類是否已經在 PooledObjectTree 存在,如果存在會檢查這個對象的對象池是否為空,如果為空會創(chuàng)建一個新的。
如果對象池中有多余的對象,會利用 queue 彈出一個對象并驗證這個對象是否可用。如果不可用會自動調用所屬的 Factory 清理銷毀該對象,同時清理它在 Python 中的 GC 計數(shù),讓它更快被 GC 回收,不斷拿取下一個直至有可用的。
如果這個對象可用,則會直接返回。當然無論是從對象池中取出對象還是新創(chuàng)建了一個對象,都會利用 Counter 增加一個計數(shù)。
回收機制
回收一個對象時會判斷目標對象池存不存在,如果存在會檢查對象池是否已經滿了,滿了的話會自動銷毀要歸還的這個對象。
然后會檢查這個對象是否已經被借出太長時間,如果超過了配置的最長時間同樣會被清理掉。
自動回收
自動回收時每隔一段時間,默認是 300 s,就會執(zhí)行一次。自動清理不經常使用的對象池中的對象。
使用說明
你可以先安裝 Pond 的庫并且在你的項目中引用。
pip install pondpond
from pond import Pond, PooledObjectFactory, PooledObject
首先你需要聲明一個你想要放入的類型的對象的工廠類,比如下面的例子我們希望池化的對象是 Dog,所以我們先聲明一個 PooledDogFactory 類,并且實現(xiàn) PooledObjectFactory。
class Dog:
name: str
validate_result:bool = True
class PooledDogFactory(PooledObjectFactory):
def creatInstantce(self) -> PooledObject:
dog = Dog()
dog.name = "puppy"
return PooledObject(dog)
def destroy(self, pooled_object: PooledObject):
del pooled_object
def reset(self, pooled_object: PooledObject) -> PooledObject:
pooled_object.keeped_object.name = "puppy"
return pooled_object
def validate(self, pooled_object: PooledObject) -> bool:
return pooled_object.keeped_object.validate_result
接著你需要創(chuàng)建 Pond 的對象:
pond = Pond(borrowed_timeout=2,
time_between_eviction_runs=-1,
thread_daemon=True,
eviction_weight=0.8)
Pond 可以傳遞一些參數(shù)進去,分別代表:
borrowed_timeout :單位為秒,借出對象的最長期限,超過期限的對象歸還時會自動銷毀不會放入對象池。
time_between_eviction_runs :單位為秒,自動回收的間隔時間。
thread_daemon :守護線程,如果為 True,自動回收的線程會隨著主線程關閉而關閉。
eviction_weight :自動回收時權重,會將這個權重與最大使用頻次想乘,使用頻次小于這個值的對象池中的對象都會進入清理步驟。
實例化工廠類:
factory = PooledDogFactory(pooled_maxsize=10, least_one=False)
所有繼承了 PooledObjectFactory 都會自帶構造函數(shù),可以傳遞 pooled_maxsize 和 least_one 兩個參數(shù)。
pooled_maxsize:這個工廠類生成出的對象的對象池的最大能放置的數(shù)量。
least_one:如果為 True,在進入自動清理時,這個工廠類生成出的對象的對象池會至少保留一個對象。
向 Pond 注冊這個工廠對象,默認會使用 factory 的類名作為 PooledObjectTree 的 key :
pond.register(factory)
當然你也可以自定義它的名字,名字會作為 PooledObjectTree 的 key:
pond.register(factory, name="PuppyFactory")
注冊成功后,Pond 會自動根據(jù) factory 中設置的 pooled_maxsize 自動開始創(chuàng)建對象直至填滿這個對象池。
借用和歸還對象:
pooled_object: PooledObject = pond.borrow(factory)
dog: Dog = pooled_object.use()
pond.recycle(pooled_object, factory)
當然你可以用名字來進行借用和歸還:
pooled_object: PooledObject = pond.borrow(name="PuppyFactory")
dog: Dog = pooled_object.use()
pond.recycle(pooled_object, name="PuppyFactory")
完全清理一個對象池:
pond.clear(factory)
通過名字清理一個對象池:
pond.clear(name="PuppyFactory")
正常情況下,你只需要使用上面的這些方法,生成對象和回收對象都是全自動的。