Amit a mély modellem nem tud

Érdekes megemlíteni, hogy a sokkal gyorsabb konvergencia mellett a lemorzsolódás is megkerüli a túlzott illesztést a hálózatban. De mivel a hálózat olyan kicsi, hogy a lemorzsolódást nem tudjuk megfelelően használni - minden réteg után -, mert a szórás túl nagy lenne. Az alábbiakban részletesebben tárgyaljuk ezt a levezetésbe merülve. Érdemes megemlíteni néhány nehézséget a Thompson mintavételével kapcsolatban is. Ahogy a modell bizonytalansága alapján veszünk mintát, furcsa eredményeket kaphatunk a bizonytalanság alulbecsléséből. Ezt meglehetősen könnyen meg lehet javítani, és egy későbbi bejegyzésben elmagyarázzuk. További nehézség az, hogy az algoritmus nem tesz különbséget a világgal kapcsolatos bizonytalanság (ami érdekel minket) és a hálózatunk téves specifikációjából eredő bizonytalanság között. Tehát, ha hálózatunk alul illeszti az adatait, és nem képes megfelelően csökkenteni a bizonytalanságot, a modell szenved.

mély

Miért is van értelme?

Nézzük meg, hogy a kieső ideghálózatok miért azonosak a Gauss-folyamatok variációs következtetéseivel. Meglátjuk, hogy amit fentebb tettünk, az átlagolás előre halad a hálózaton, egyenértékű Monte Carlo integrációjával egy Gauss-folyamat utólagos közelítésén keresztül. A levezetés néhány hosszú egyenletet használ, amelyek elrontják az oldal elrendezését a mobileszközökön - ezért ide tettem egy kapcsolóval, hogy könnyen megmutassam és elrejtsem. Érintse meg itt a levezetés megjelenítéséhez: Levezetés Érintse meg ide a levezetés elrejtéséhez: Levezetés

Kiindulunk egy Gauss-folyamatból (GP) egy bizonyos kovariancia funkcióval, és levezetünk egy variációs közelítést a modellhez. Meglátjuk, hogy ez a hozzávetőleges modell megegyezik a kimaradó ideghálózatokkal. De előtte; mi a variációs következtetés? Röviden, a variációs következtetés a modell hátsó részének közelítésére szolgál, amellyel egyébként nehéz lenne közvetlenül dolgozni. A Gauss-folyamathoz a hátsó értékelés megköveteli egy akkora mátrix inverzióját, mint az adatkészlet mérete. Ez gyakran megvalósíthatatlan. Variációs következtetés felhasználható ennek a hátulnak a kezelhetőbb megközelítésére.

Általánosságban elmondható, hogy adott modell esetén a modellt először egy véletlen változó véges halmazához kötjük. Az új modell, a $ \ x ^ * $ prediktív eloszlása ​​az adott modellben a \ begin p (\ y ^ * | \ x ^ *, \ X, \ Y) = \ int p (\ y ^ * | \ x ^ *, \ bo) p (\ bo | \ X, \ Y) \ \ td \ bo. \ end A $ p (\ bo | \ X, \ Y) $ eloszlás az a poszter, amelyet analitikusan nem lehet értékelni. Meghatározunk egy "könnyebb" közelítést variációs disztribúció $ q_ \ theta (\ bo) $ paraméterezett néhány variációs paraméterrel $ \ theta $. Ezután minimalizáljuk a Kullback – Leibler (KL) divergenciát: $$ \ argmin_ \ theta \ KL (q_ \ theta (\ bo)

p (\ bo | \ X, \ Y)). $$ Intuitív módon ez a hasonlóság mértéke a két eloszlás között, bár nem szimmetrikus. Tehát ennek a célnak a minimalizálása illeszkedik az általunk érdekelt eloszláshoz való közelítésünkhöz. Ez hozzávetőleges prediktív eloszlást ad: $$ q_ \ theta (\ y ^ * | \ x ^ *) = \ int p (\ y ^ * | \ x ^ *, \ bo) q_ \ theta (\ bo) \ td \ bo $$, amelyet a teszt időpontjában a $$ q_ \ theta (\ y ^ * | \ x ^ *) \ approx \ frac \ sum_ ^ T p (\ y ^ * | \ x ^ *, \ bo_t) $$ a $ \ bo_t \ sim q_ \ theta (\ bo) $ paranccsal. A KL divergencia minimalizálása megegyezik a log bizonyítékok alsó határa $ \ theta $: \ begin \ label \ cL_>: = \ int q_ \ theta (\ bo) \ log p (\ Y | \ X, \ bo) \ td \ bo - \ KL (q_ \ theta (\ bo) || p (\ bo)) \ ott ér véget, ahol most a KL divergencia a hozzávetőleges utólagos $ q_ \ theta (\ bo) $ és a prior között a véletlen változók felett $ p (\ bo) $. Ez meglehetősen egyszerű volt. Most hogyan alkalmazzuk ezt a háziorvosi helyzetünkre?

Megkapjuk a \ begin \ K (\ x, \ y) = \ int \ N (\ w; 0, l ^ \ I_Q) p (b) \ sigma (\ w ^ T \ x) formájú háziorvos kovariancia függvényét. + b) \ sigma (\ w ^ T \ y + b) \ td \ w \ td b \ előzetes hosszskálával zárul le $ l $, bizonyos eloszlás $ p (b) $ és $ \ sigma $ elemenként nemlineáris függvény (pl. ReLU/TanH).

Ezt a kovariancia függvényt Monte Carlo integrációval közelítjük a $ K $ kifejezésekkel: \ begin \ Kh (\ x, \ y) & = \ frac \ sum_ ^ K \ sigma (\ w_k ^ T \ x + b_k) \ sigma (\ w_k ^ T \ y + b_k) \ vége: $ \ w_k \ sim \ N (0, l ^ \ I_Q) $ és $ b_k \ sim p (b) $. Ez egy véletlenszerű kovariancia funkció. A monte carlói integráció $ K $ feltételei megfelelnek a hálózatunk $ K $ rejtett egységeinek, amint alább láthatjuk.

Újra paraméterezhetjük a háziorvos prediktív eloszlását \ begin \ w_k \ sim \ N (0, l ^ \ I_Q) néven,

b_k \ sim p (b), \ notag \\ \ W_1 = [\ w_k] _ ^ K,

\ Bb = [b_k] _ ^ K, \ notag \\ \ bo = \ < \W_1, \W_2, \Bb \>\ notag \\ p (\ y ^ * | \ x ^ *, \ bo) = \ N \ bigg (\ y ^ *; \ sqrt> \ sigma (\ x ^ * \ W_1 + \ Bb) \ W_2, \ tau ^ \ I_N \ bigg) \\ p (\ y ^ * | \ x ^ *, \ X, \ Y) = \ int p (\ y ^ * | \ x ^ *, \ bo) p (\ bo | \ X, \ Y) \ td \ bo. \ end Megtudhatja, miért hivatkozhat (Gal és Ghahramani) további részletekre.

Ezután a $ q_ \ theta (\ bo) = q_ \ theta (\ W_1) q_ \ theta (\ W_2) q_ \ theta (\ Bb) $ variációs eloszlást használjuk a hátsó $ p (\ bo | \ X, \ Y) $: \ begin q_ \ theta (\ W_1) = \ prod_ ^ Q q_ \ theta (\ w_q),

A naplózási bizonyítékok alsó határát (eq. \ Eqref) közelítjük Monte Carlo integrációval egyetlen mintával $ \ widehat \ sim q_ \ theta (\ bo) $: \ begin \ cL_> \ kb \ log p (\ Y | \ X, \ widehat) - \ frac || \ M_1 || ^ 2_2 - \ frac || \ M_2 || ^ 2_2 - \ frac || \ m || ^ 2_2, \ vége, ahol egy tétel után közelítettük a második tagot (Gal és Ghahramani) mellékletét hozta. Ez a $ \ cL _> $ elfogulatlan becslője. Ez azt jelenti, hogy az ezt a célt maximalizáló variációs paraméterek megegyeznek az egyenérték maximalizálásával. \ eqref.

A $ \ frac $ konstanssal skálázva a maximalizálási célt kapjuk: \ begin \ cL_> & \ propto - \ frac \ sum_ ^ N || \ y_n - \ widehat_n || ^ 2_2 - \ frac || \ M_1 || ^ 2_2 - \ frac || \ M_2 || ^ 2_2 - \ frac || \ m || ^ 2_2 \ befejezi a lemorzsolódás céljának megfelelő helyreállítását a modell pontossága $ \ tau $ és a korábbi $ skála hosszúsági skála elég kicsi $ \ bsigma $. Ezt a levezetést az (Gal és Turner) ötletek kiterjesztéseként kaptuk. Levezetésünk könnyen általánosítható több rétegre és osztályozásra, a (Gal és Ghahramani) mellékletében leírtak szerint. Többrétegű esetben a mély Gauss-folyamatot (Damianou és Lawrence) alkalmazzák a sekély Gauss-folyamat helyett.

Merülés a levezetésbe

A fenti levezetés rávilágít a lemorzsolódás számos érdekes tulajdonságára és a mély tanulás során alkalmazott egyéb "szakma trükkjeire". Ezek egy részét a (Gal és Ghahramani) függeléke írja le. Itt áttekintjük a levezetésből fakadó mélyebb felismeréseket. Szeretnék köszönetet mondani Mark van der Wilknek az alább felvetett néhány kérdésért.

Nagyon jó látni azt is, hogy az empirikus hálózat, amelyet az empirikus kísérleteket követően fejlesztettek ki, egyenértékű a népszerű varianciacsökkentési technika alkalmazásával a fenti Gauss-folyamat-közelítésünkben. Pontosabban, a (Gal és Ghahramani) mellékletének teljes levezetésében a lemorzsolódás modelljének megfeleltetése érdekében újra kell paramétereznünk a modellt, hogy a véletlenszerű változók ne függjenek semmilyen paramétertől, így csökkentve a monte carlói varianciát becslő. Erről bővebben a Kingma és a Welling című cikkekben olvashat. Ez megmagyarázhatja azt is, hogy a lemorzsolódás miért nem teljesít olyan hálózatoknál, amelyek kicsiek az adatkészlet méretéhez képest. Feltehetően a becslő variancia túl nagy.

A fenti fejlemények új értelmezést javasolnak arról is, hogy miért működik olyan jól a lemorzsolódás, mint egy szabályosítási technika. Jelenleg a területen azt gondolják, hogy a lemorzsolódás a bevezetett zaj miatt működik. Azt mondanám, hogy az ellenkezője igaz: a lemorzsolódás a bevezetett zaj ellenére működik!. Ezzel azt akarom mondani, hogy a zaj, közelítő integrációként értelmezve, mellékhatása az integrációnak a modell paraméterei felett. Ha tehetnénk, analitikusan értékelnénk az integrálokat anélkül, hogy ezt a további zajt bevezetnénk. Valójában ez a Bayes-i ideghálózatok sok megközelítése a gyakorlatban.

Mi a következő lépés

Úgy gondolom, hogy a jövőbeni kutatásnak a fenti modelljeink jobb bizonytalansági becsléseire kell összpontosítania. Az a tény, hogy Bernoulli-eloszlásokat közelítően felhasználhatunk ésszerűen jó bizonytalansági becslésekhez, számításigényes beállításokhoz nyújt segítséget számunkra, de alternatív közelítő eloszlásokkal javítani kell ezeket a bizonytalansági becsléseket. A multiplikatív Gauss-zaj felhasználásával az egységek szorzása például $ \ N (1,1) $ -val pontosabb bizonytalansági becsléseket eredményezhet, és sok más, hasonlóan expresszív, ugyanakkor számítási szempontból hatékony eloszlás létezik odakint. Nagyon érdekes lesz látni az egyszerű disztribúciók elvszerű és kreatív használatát, amely erőteljes bizonytalansági becsléseket eredményezne.

Forráskód

Ide tettem a fenti példákkal használt modelleket, hogy saját maga is játszhasson velük. A modellek a Caffe-t használják mind az ideghálózatokhoz, mind a konvolúciós ideghálózatokhoz. Itt megtalálja az interaktív demók kódját is a Karpathy keretrendszerével.

Következtetések

Láttuk, hogy a meglévő mély modellektől a modell bizonytalanságát egyetlen dolog megváltoztatása nélkül is megszerezhetjük. Remélhetőleg hasznosnak találja ezt a kutatásában, legyen az adatelemzés a bioinformatikában vagy a képosztályozás a látórendszerekben. A következő bejegyzésben áttekintem Gal és Ghahramani főbb eredményeit, bemutatva, hogyan lehet a fenti betekintést kiterjeszteni a Bayes-i konvolúciós ideghálózatok megszerzésére, a CIFAR-10 csúcstechnológiájú eredményeivel. Egy későbbi bejegyzésben modellbizonytalanságot fogunk használni az ellentétes bemenetekhez, például a sérült képekhez, amelyek nagy bizalommal tévesen osztályoznak (további részletekért nézze meg az ideghálózatok érdekes tulajdonságait vagy a lineáris osztályozók törését). Az egyes bemeneti dimenziókból egyetlen képpont hozzáadását vagy kivonását szinte változatlan bemenetnek tekintik az emberi szem számára, de ez jelentősen megváltoztathatja a besorolási valószínűségeket. A nagy dimenziós bemeneti térben az új sérült kép messze fekszik az adatoktól, és az ilyen bemeneteknél meg kell nőni a modell bizonytalanságát.

További irodalom

Ha többet szeretne megtudni a Gauss-folyamatokról, megnézheti Carl Rasmussen videóelőadását, Philipp Hennig videóelőadásait, vagy megnézhet néhány megjegyzést a Gauss-folyamat korábbi nyári iskoláiból. Megtekintheti az online elérhető Gauss-folyamatok a gépi tanuláshoz könyvet is.

Számos olyan korábbi projektem is van, amelyek Gauss-folyamatokat tartalmaznak, mint például a Gauss-folyamat eloszlásának következtetése Mark van der Wilk és Carl E. Rasmussen (NIPS 2014) segítségével, diszkrét változók vektorainak eloszlási becslése sztochasztikus variációs következtetéssel Yutian Chen és Zoubin esetében Ghahramani (ICML 2015), variációs következtetés a ritka spektrum közelítésében a Gauss-folyamathoz Richard Turnerrel (ICML 2015), és egy gyors bemutató a Gauss-folyamatokhoz Mark van der Wilk segítségével az arXiv-en.

A fenti fejlesztéseink azt is mutatják, hogy a lemorzsolódás megközelítő következtetésnek tekinthető a Bayes-i ideghálózatokban, amelyet a következő bejegyzésben részletesen elmagyarázok. Időközben a Bayes-i ideghálózatok érdekes, legújabb kutatásaihoz át lehet térni ezekre a variációs technikákra (Graves 2011-től, Gal és Ghahramani, Kingma et al. És Blundell et al. 2015-től), Bayesian Dark Knowledge, Korattikara et al ., Miguel Hernández-Lobato és Ryan Adams valószínűségi visszapopagációja, valamint Li et al.

Köszönetnyilvánítás

Szeretnék köszönetet mondani Christof Angermuellernek, Roger Frigolának, Shane Gu-nak, Rowan McAllister-nek, Gabriel Synnaeve-nek, Nilesh Tripuraneninek, Yan Wu-nak, Prof Yoshua Bengio-nak és Phil Blunsom professzornak a hozzászólásokhoz vagy a fenti blogbejegyzésekhez adott hasznos megjegyzésekért, vagy csak általában. Külön köszönet Mark van der Wilknek a közelítési tulajdonságokkal kapcsolatos elgondolkodtató megbeszélésekért.

Idézetek

Ezeket az eredményeket fel akarja használni a kutatásához? Idézheted Gal-t és Ghahramanit (vagy közvetlenül letöltheted a Bib fájlt). Magában a cikkben is sokkal több eredmény található.