回想一下使用Bagging學(xué)習(xí),我們定義 k 個不同的模型,從訓(xùn)練集有替換采樣構(gòu)造 k 個不同的數(shù)據(jù)集,然后在訓(xùn)練集上訓(xùn)練模型 i。
Dropout的目標(biāo)是在指數(shù)級數(shù)量的神經(jīng)網(wǎng)絡(luò)上近似這個過程。Dropout訓(xùn)練與Bagging訓(xùn)練不太一樣。在Bagging的情況下,所有模型是獨(dú)立的。
在Dropout的情況下,模型是共享參數(shù)的,其中每個模型繼承的父神經(jīng)網(wǎng)絡(luò)參數(shù)的不同子集。參數(shù)共享使得在有限可用的內(nèi)存下代表指數(shù)數(shù)量的模型變得可能。在Bagging的情況下,每一個模型在其相應(yīng)訓(xùn)練集上訓(xùn)練到收斂。
在Dropout的情況下,通常大部分模型都沒有顯式地被訓(xùn)練,通常該模型很大,以致到宇宙毀滅都不能采樣所有可能的子網(wǎng)絡(luò)。取而代之的是,可能的子網(wǎng)絡(luò)的一小部分訓(xùn)練單個步驟,參數(shù)共享導(dǎo)致剩余的子網(wǎng)絡(luò)能有好的參數(shù)設(shè)定。