Jae Duk Seo

9 februarie 2019 · 4 min de citire

Vă rugăm să rețineți că această postare are scopul meu educațional.

greutate

Acum → normalizăm greutatea rețelei → accelerează convergența → nu are dependență de dimensiunea lotului → poate fi aplicat în RNN sau GAN. (Metodă simplă, dar puternică de accelerare a convergenței). → aplicat și în RL.

NN → se poate antrena mai repede atunci când este implicat factorul de normalizare → metodele de optimizare a gradientului de prim ordin → depinde de curbura peisajului de pierdere → punctele de șa sunt problema. (pe curbura patologică → progresul greu în acele peisaje). → există o metodă mai ușoară de optimizare. (găsirea unor modalități bune de optimizare este un domeniu cheie de cercetare).

Arhitectura rețelei diferă de la sarcină la sarcină → Îmbunătățirea proprietății de optimizare este un alt domeniu cheie de cercetare → îmbunătățirea metodelor de optimizare ar fi foarte utilă. (folosind metode de gradient natural, ar putea fi pe cale.). → se referă la matricea Fisher și operația de scriere. Sau schimbați face gradientul să arate ca un gradient natural → albirea gradientului → ghiciți că decorelația îmbunătățește optimizarea. (normalizarea lotului este o altă metodă). → reduceți schimbul de covarianță. (inspirat de normalizarea lotului) → dar nu există zgomot la gradient.

NN standard → multiplicarea matricii și neliniaritatea → abordare generică. (reparameterizați greutatea prin normalizare → introducând V și G.).

Ideea → ideea autorului este o diferență, deoarece ea reparameterizează greutățile. Decuplarea direcției și amploarea greutății. (există, de asemenea, o metodă de utilizare a reparametrizării jurnalelor, dar nu arată rezultate bune în practică).

SGD este utilizat → dar cu privire la v și g → și acest gradient poate fi rescris diferit așa cum se vede mai sus. (foarte interesant). M este o matrice de proiecție → scalează gradientul ponderat → proiectează și gradientul din vectorul de greutate curent → covarianța gradientului se apropie de identitate.

Actualizarea este ortogonală → și norma este crescută prin teorema lui Pitagora. → gradient scalat → auto stabilizează norma sa. Acest lucru face ca optimizarea să fie robustă la rata de învățare → super cool → rata de învățare să se stabilizeze și → norma lotului are, de asemenea, acest tip de proprietate. (proiectarea gradientului departe de vectorul de greutate → zgomotul este eliminat).

Cum se raportează la BN → când intrarea este albă, normalizarea pre-activării este aceeași cu normalizarea greutății. (normalizarea greutăților este o operațiune de calcul mai ieftină). (de asemenea, actualizare mai puțin zgomotoasă).

BN → poate fixa scara datelor → robustă la inițializarea parametrilor → norma de greutate nu face acest lucru → deci înainte de antrenament → inițializați v dintr-un mini-lot. (numai în timpul inițializării, prima iterație). → caracteristicile au acum zero medie și 1 varianță. (inițializarea bazei de date pare a fi un domeniu de studiu cu totul diferit). (nu se aplică RNN sau LSTM).

Nu scalează datele → pentru a avea o abatere standard de una → doar centrează datele. (centrarea gradientului → funcționare ieftină → mai puțin zgomot în timpul antrenamentului).