Diet Networks: Ideghálózatok és a p >> n probléma

Feladva: 2018. augusztus 12

Diet Networks

A Diet Networks egy mély tanulási megközelítés az ősök genomikus adatok felhasználásával történő előrejelzéséhez. Az ideghálózatban lévő szabad paraméterek száma a bemeneti dimenziótól függ. A genomi adatok dimenziója általában három nagyságrenddel nagyobb, mint a megfigyelések száma. A modell egy teljesen összekapcsolt hálózat alternatív megközelítését javasolja, amely jelentősen csökkenti az ingyenes paraméterek számát.

  • Beszélje meg a neurális hálózatokat és a mély tanulást
  • Beszélje meg a genomi adatokat és motiválja a Diet Networks megközelítését
  • Beszélje meg a Diet Network architektúráját
  • Beszélje meg a TensorFlow megvalósítását és eredményeit

Idegháló és mély tanulás

  • A neurális hálózatok grafikus szerkezetekként vannak ábrázolva

  • A súlyok, a szabad paraméterek, és a maximális valószínûség becslésével és a visszafelé terjedéssel tanulhatók meg.
  • Ez a struktúra felhasználható: Lineáris regresszió, Többváltozós regresszió, Binomiális regresszió, Softmax regresszió

  • A bemeneti réteget követő csomópontokat egy aktiválási függvénnyel számolják ki

Mi a helyzet a mély tanulás fogalmával?

  • Rejtett rétegek hozzáadása lehetővé teszi a modell számára, hogy „mélyebb” reprezentációt tanuljon.
  • Az univerzális közelítés tétel: egy két rejtett réteggel és nemlineáris aktiválási funkcióval rendelkező hálózat képes bármilyen folyamatos funkciót közelíteni a kompakt részhalmazon keresztül .

  • A modell paraméterei mátrixként ábrázolhatók.

Reprezentációs tanulás

  • Meg akarjuk tanulni az adatok új reprezentációját, hogy az új reprezentációk lineárisak legyenek ebben az új térben.

Példa:

(A fenti kép innen kölcsönzött)

  • A nemlineáris aktiválási függvények lehetővé teszik a modell számára, hogy ezt a megkülönböztető függvényt lineáris függvényként megtanulja egy új jellemzőtérben.

(A fenti kép innen kölcsönzött)

  • A rejtett rétegekben lévő, nem lineáris aktiválási funkciókat tartalmazó csomópontok a nemlineáris aktiválási függvény hol vannak ábrázolva.
  • A következő új ábrázolása ekkor jelenik meg: .
  • Az algoritmus lényegében olyan súlymátrixokat tár fel, amelyek a gradiens süllyedés útjában vannak.
  • Ezek a súlymátrixok a függvény-közelítő feladatban figyelembe vett függvények hipotézisterét konstruálják.

Konvolúciós rétegek

A „mély” tanulás kezdete konvolúciós neurális hálózatokkal kezdődött. A fő gondolat egyetlen idegháló összekapcsolása egy kép vagy hang körül. Itt navigálhat a számtan vagy a vizualizáció érdekében.

(Kép innen kölcsönzött)

  • A kernel vagy az idegháló konvolúcióját mutatja a nagyobb kék kép körül, hogy zöld színnel hozza létre a „lefelé mintavételt”.

(Kép kölcsönzött innen

  • Kifejezi, hogy egy konvolúciós réteget hogyan lehet ábrázolni egy mátrixszal. Figyelje meg a megtanulható paraméterek csökkenését.

Sajnos a genomi adatok nincsenek nyilvánvaló kapcsolatban a szomszédos bejegyzésekkel, például kép- vagy hangadatokkal.

Genomikai adatok

  • Az 1000 genom projekt kiadta a legnagyobb genomiális adatsort 26 különböző populáció között.
  • Az adatok nagyjából 150 000 egy nukleotid polimorfizmus (SNP) nagyjából 2500 emberre vonatkoznak.
  • Az SNP-k lényegében a nukleotidok genetikai variációi, amelyek jelentős gyakorisággal fordulnak elő a populációk között.
  • A cél ezen egyén származásának osztályozása ezen SNP adatok alapján.

Diéta hálózatok felépítése

  • A Diet Networks egy teljesen összekapcsolt hálózatot javasol két kiegészítő hálózattal.
  • A segédhálózat fő célja a diszkriminatív hálózat első rétegének súlyának előrejelzése.

(Kép a Diet Networks 1-ből *)

  • Teljesen összekapcsolt, dimenziós adatokkal rendelkező hálózatnak súlymátrixa lesz a diszkriminatív hálózat első rétegében.
  • Ha, akkor 15 000 000 szabad paraméterünk van!
  • A súlymátrix előrejelzésére javasolt módszer jelentősen csökkenti ezt a számot.

Segédhálózat a kódoláshoz

  • A kódoláshoz szükséges segédhálózat megjósolja a diszkriminatív hálózat első rétegének súlymátrixát.
  • jegyzet:
    • nagyságú
    • nagyságú
    • Legyen a rejtett rétegek egységeinek száma
    • A diszminmáló hálózat első rétegét a súlymátrix képviseli, ami .
  • A segédhálózat első rétegének van egy súlymátrixa, méretével .
  • Ezután a segédhálózat kimenete .
  • van mérete .
  • Így megfelelő a méret a diszkriminált hálózat első rétegéhez.
  • Az elkészíthető megtanulható paraméterek végső száma:

Segédhálózat dekódoláshoz

  • Ugyanez történik a dekódoló segédhálózaton is.
  • jegyzet:
    • ami magában foglalja az átültetést alakot ad .
    • Az első MLP réteg kimenete, diszkriminatív módon: .
    • Így ad .
    • A rekonstrukciót azért használják, mert jobb eredményeket ad és segít a gradiens áramlásban.

A beágyazó réteg

  • Ez a megvalósítás a hisztogram beágyazására összpontosít.
  • A hisztogram beágyazását úgy generáljuk, hogy kiszámoljuk az egyes SNP-kkel rendelkező osztályok minden lehetséges értékének gyakoriságát .
  • Ez az információ egy mátrixban található, mivel 3 bemeneti típus, 26 osztály 78-at ad.
  • Ez a beágyazás egy rejtett réteg bemenetét jelenti, amelynek csomópontjai vannak.
  • Ezért lesz egy megtanulandó súlymátrixunk, de a megfelelő kimenet igen .

A TensorFlow megvalósítása és eredményei

A cél a dolgozat eredményeinek megismétlése.

  • Információt nyújtanak a modellről, mint pl
    • a rejtett egységek és rejtett rétegek száma
    • a színátmenetekre vonatkozó normakényszerek
    • adaptív tanulási arány sztochasztikus gradiens süllyedés optimalizáló segítségével
  • A cikk nem határozza meg
    • pontosan hogyan szabályozzák a paramétereket
    • ha kötegelt normát alkalmaztak
    • ha használtak kiesnek
    • mely aktiválási funkciókat használták
    • hogyan inicializálták a rejtett rétegek súlyát
    • vagy mely konkrét optimalizálókat használták
  • Ennek a megvalósításnak az a célja, hogy konkrétan meghatározza az alkalmazott szabályozást, súly-inicializálást és optimalizálókat.
  • Szabályozás

    A rendszeresítés megakadályozza a modellünk túlterhelését. Segít csökkenteni az általánosítási hibát.

    A cikk meghatározza, hogy korlátozzák a színátmenetek normáját (gradiens vágás).

    Ez a megvalósítás a következő szabályozási technikákat használja:

    • L2 norma minden mátrix mátrixon (mint a gerinc regresszió)
    • gradiens nyírás (csak akkor terjed, ha a gradiens kisebb, mint a küszöb)
    • a súly inicializálása (eloszlás használata nulla átlaggal és kis szórással)

    Batch Norm

    • A köteg az adatok egy részhalmaza, amelyet a hátsó terjedéshez használnak.
    • A kötegelt norma normalizálja az egyes kötegeket, amikor előrehaladást végez a hiba kiszámításához.
    • Megakadályozza a modell paramétereinek sodródását, mint skála problémák okát.
    • Ezt a problémát kovariált váltásnak nevezik

    Kidobni

    • A kiesés az idegsejtek véletlenszerű kikapcsolásának folyamata a modellben.
    • Lehetővé teszi minden idegsejt számára a „szavazást”, és megakadályozza az idegsejtek egy részének átvételét.
    • Matematikailag egyenértékű az együttes tanulással, és számítási szempontból olcsó.

    Aktiválási funkciók

    • Minden aktiválási funkciónak megvannak a maga előnyei és hátrányai.
    • Ez a megvalósítás figyelembe veszi a tanh és a relu nemlineáris aktiválási függvényeket.

    Optimalizálók

    • A Diet Networks egyszerűen meghatározta, hogy adaptív tanulási arányú sztochasztikus gradiens süllyedés visszafelé terjedési tanulási algoritmust használtak.
    • Ez a megvalósítás figyelembe veszi az ADAM és az RMSprop optimalizálókat a modell kiválasztásának folyamatában.

    TensorFlow megvalósítás

    • Az alábbi ábra bemutatja ennek a TensorFlow megvalósításnak a felépítését

    A bal oldali szerkezet a segédhálózatot képviseli. A megfelelő struktúra képviseli a diszkriminatív hálózatot.

    • Mindenhol van egy act_fun, vagy a w_init nyitva marad a modell kiválasztásához.

    Modell kiválasztása

    A TensorFlow rendelkezik a tensorboard nevű funkcióval, amely elősegíti a tanulás vizualizálását. A Tensorboard egy olyan webalkalmazás, amely meghatározott összegző statisztikákat jelenít meg. A modellválasztás elvégzése érdekében sok modellt felépítenek.

    Figyelembe vett modellek:

    • Súly inicializálása a Normal és az Uniform eloszlással .1 és .01 szórással
    • tanh és relu aktiválási funkciók
    • Adam és RMSprop optimalizálók
    • .001 és .0001 tanulási arány

    Tesztkészlet pontossága a 32 modellnél

    Az optimális modell körülbelül 93% -os pontosságot ér el, amely megfelel a Diet Networks eredményeinek.

    Romero, Adriana és mtsai. "Diet Dietworks: Vékony paraméterek a zsírgenomikához." arXiv preprint arXiv: 1611.09340 (2016)) ↩ 2