Diet Networks: Ideghálózatok és a p >> n probléma

Feladva: 2018. augusztus 12

A Diet Networks egy mély tanulási megközelítés az ősök genomikus adatok felhasználásával történő előrejelzéséhez. Az ideghálózatban lévő szabad paraméterek száma a bemeneti dimenziótól függ. A genomi adatok dimenziója általában három nagyságrenddel nagyobb, mint a megfigyelések száma. A modell egy teljesen összekapcsolt hálózat alternatív megközelítését javasolja, amely jelentősen csökkenti az ingyenes paraméterek számát.

Beszélje meg a neurális hálózatokat és a mély tanulást
Beszélje meg a genomi adatokat és motiválja a Diet Networks megközelítését
Beszélje meg a Diet Network architektúráját
Beszélje meg a TensorFlow megvalósítását és eredményeit

Idegháló és mély tanulás

A neurális hálózatok grafikus szerkezetekként vannak ábrázolva

A súlyok, a szabad paraméterek, és a maximális valószínûség becslésével és a visszafelé terjedéssel tanulhatók meg.
Ez a struktúra felhasználható: Lineáris regresszió, Többváltozós regresszió, Binomiális regresszió, Softmax regresszió

A bemeneti réteget követő csomópontokat egy aktiválási függvénnyel számolják ki

Mi a helyzet a mély tanulás fogalmával?

Rejtett rétegek hozzáadása lehetővé teszi a modell számára, hogy „mélyebb” reprezentációt tanuljon.
Az univerzális közelítés tétel: egy két rejtett réteggel és nemlineáris aktiválási funkcióval rendelkező hálózat képes bármilyen folyamatos funkciót közelíteni a kompakt részhalmazon keresztül .

A modell paraméterei mátrixként ábrázolhatók.

Reprezentációs tanulás

Meg akarjuk tanulni az adatok új reprezentációját, hogy az új reprezentációk lineárisak legyenek ebben az új térben.

Példa:

(A fenti kép innen kölcsönzött)

A nemlineáris aktiválási függvények lehetővé teszik a modell számára, hogy ezt a megkülönböztető függvényt lineáris függvényként megtanulja egy új jellemzőtérben.

(A fenti kép innen kölcsönzött)

A rejtett rétegekben lévő, nem lineáris aktiválási funkciókat tartalmazó csomópontok a nemlineáris aktiválási függvény hol vannak ábrázolva.
A következő új ábrázolása ekkor jelenik meg: .
Az algoritmus lényegében olyan súlymátrixokat tár fel, amelyek a gradiens süllyedés útjában vannak.
Ezek a súlymátrixok a függvény-közelítő feladatban figyelembe vett függvények hipotézisterét konstruálják.

Konvolúciós rétegek

A „mély” tanulás kezdete konvolúciós neurális hálózatokkal kezdődött. A fő gondolat egyetlen idegháló összekapcsolása egy kép vagy hang körül. Itt navigálhat a számtan vagy a vizualizáció érdekében.

(Kép innen kölcsönzött)

A kernel vagy az idegháló konvolúcióját mutatja a nagyobb kék kép körül, hogy zöld színnel hozza létre a „lefelé mintavételt”.

(Kép kölcsönzött innen

Kifejezi, hogy egy konvolúciós réteget hogyan lehet ábrázolni egy mátrixszal. Figyelje meg a megtanulható paraméterek csökkenését.

Sajnos a genomi adatok nincsenek nyilvánvaló kapcsolatban a szomszédos bejegyzésekkel, például kép- vagy hangadatokkal.

Genomikai adatok

Az 1000 genom projekt kiadta a legnagyobb genomiális adatsort 26 különböző populáció között.
Az adatok nagyjából 150 000 egy nukleotid polimorfizmus (SNP) nagyjából 2500 emberre vonatkoznak.
Az SNP-k lényegében a nukleotidok genetikai variációi, amelyek jelentős gyakorisággal fordulnak elő a populációk között.
A cél ezen egyén származásának osztályozása ezen SNP adatok alapján.

Diéta hálózatok felépítése

A Diet Networks egy teljesen összekapcsolt hálózatot javasol két kiegészítő hálózattal.
A segédhálózat fő célja a diszkriminatív hálózat első rétegének súlyának előrejelzése.

(Kép a Diet Networks 1-ből *)

Teljesen összekapcsolt, dimenziós adatokkal rendelkező hálózatnak súlymátrixa lesz a diszkriminatív hálózat első rétegében.
Ha, akkor 15 000 000 szabad paraméterünk van!
A súlymátrix előrejelzésére javasolt módszer jelentősen csökkenti ezt a számot.

Segédhálózat a kódoláshoz

A kódoláshoz szükséges segédhálózat megjósolja a diszkriminatív hálózat első rétegének súlymátrixát.
jegyzet:
- nagyságú
- nagyságú
- Legyen a rejtett rétegek egységeinek száma
- A diszminmáló hálózat első rétegét a súlymátrix képviseli, ami .
A segédhálózat első rétegének van egy súlymátrixa, méretével .
Ezután a segédhálózat kimenete .
van mérete .
Így megfelelő a méret a diszkriminált hálózat első rétegéhez.
Az elkészíthető megtanulható paraméterek végső száma:

Segédhálózat dekódoláshoz

Ugyanez történik a dekódoló segédhálózaton is.
jegyzet:
- ami magában foglalja az átültetést alakot ad .
- Az első MLP réteg kimenete, diszkriminatív módon: .
- Így ad .
- A rekonstrukciót azért használják, mert jobb eredményeket ad és segít a gradiens áramlásban.

A beágyazó réteg

Ez a megvalósítás a hisztogram beágyazására összpontosít.
A hisztogram beágyazását úgy generáljuk, hogy kiszámoljuk az egyes SNP-kkel rendelkező osztályok minden lehetséges értékének gyakoriságát .
Ez az információ egy mátrixban található, mivel 3 bemeneti típus, 26 osztály 78-at ad.
Ez a beágyazás egy rejtett réteg bemenetét jelenti, amelynek csomópontjai vannak.
Ezért lesz egy megtanulandó súlymátrixunk, de a megfelelő kimenet igen .

A TensorFlow megvalósítása és eredményei

A cél a dolgozat eredményeinek megismétlése.

Információt nyújtanak a modellről, mint pl

a rejtett egységek és rejtett rétegek száma
a színátmenetekre vonatkozó normakényszerek
adaptív tanulási arány sztochasztikus gradiens süllyedés optimalizáló segítségével

A cikk nem határozza meg

pontosan hogyan szabályozzák a paramétereket
ha kötegelt normát alkalmaztak
ha használtak kiesnek
mely aktiválási funkciókat használták
hogyan inicializálták a rejtett rétegek súlyát
vagy mely konkrét optimalizálókat használták

Ennek a megvalósításnak az a célja, hogy konkrétan meghatározza az alkalmazott szabályozást, súly-inicializálást és optimalizálókat.

Szabályozás

A rendszeresítés megakadályozza a modellünk túlterhelését. Segít csökkenteni az általánosítási hibát.

A cikk meghatározza, hogy korlátozzák a színátmenetek normáját (gradiens vágás).

Ez a megvalósítás a következő szabályozási technikákat használja:

L2 norma minden mátrix mátrixon (mint a gerinc regresszió)
gradiens nyírás (csak akkor terjed, ha a gradiens kisebb, mint a küszöb)
a súly inicializálása (eloszlás használata nulla átlaggal és kis szórással)

Batch Norm

A köteg az adatok egy részhalmaza, amelyet a hátsó terjedéshez használnak.
A kötegelt norma normalizálja az egyes kötegeket, amikor előrehaladást végez a hiba kiszámításához.
Megakadályozza a modell paramétereinek sodródását, mint skála problémák okát.
Ezt a problémát kovariált váltásnak nevezik

Kidobni

A kiesés az idegsejtek véletlenszerű kikapcsolásának folyamata a modellben.
Lehetővé teszi minden idegsejt számára a „szavazást”, és megakadályozza az idegsejtek egy részének átvételét.
Matematikailag egyenértékű az együttes tanulással, és számítási szempontból olcsó.

Aktiválási funkciók

Minden aktiválási funkciónak megvannak a maga előnyei és hátrányai.
Ez a megvalósítás figyelembe veszi a tanh és a relu nemlineáris aktiválási függvényeket.

Optimalizálók

A Diet Networks egyszerűen meghatározta, hogy adaptív tanulási arányú sztochasztikus gradiens süllyedés visszafelé terjedési tanulási algoritmust használtak.
Ez a megvalósítás figyelembe veszi az ADAM és az RMSprop optimalizálókat a modell kiválasztásának folyamatában.

TensorFlow megvalósítás

Az alábbi ábra bemutatja ennek a TensorFlow megvalósításnak a felépítését

A bal oldali szerkezet a segédhálózatot képviseli. A megfelelő struktúra képviseli a diszkriminatív hálózatot.

Mindenhol van egy act_fun, vagy a w_init nyitva marad a modell kiválasztásához.

Modell kiválasztása

A TensorFlow rendelkezik a tensorboard nevű funkcióval, amely elősegíti a tanulás vizualizálását. A Tensorboard egy olyan webalkalmazás, amely meghatározott összegző statisztikákat jelenít meg. A modellválasztás elvégzése érdekében sok modellt felépítenek.

Figyelembe vett modellek:

Súly inicializálása a Normal és az Uniform eloszlással .1 és .01 szórással
tanh és relu aktiválási funkciók
Adam és RMSprop optimalizálók
.001 és .0001 tanulási arány

Tesztkészlet pontossága a 32 modellnél

Az optimális modell körülbelül 93% -os pontosságot ér el, amely megfelel a Diet Networks eredményeinek.

Romero, Adriana és mtsai. "Diet Dietworks: Vékony paraméterek a zsírgenomikához." arXiv preprint arXiv: 1611.09340 (2016)) ↩ 2