• Găsiți acest autor pe Google Scholar
  • Găsiți acest autor pe PubMed
  • Căutați acest autor pe acest site
  • Record ORCID pentru D. Antonets
  • Pentru corespondență: [email protected]

Abstract

Motivație Datele transcriptomice sunt frecvent utilizate în cercetarea genelor biomarkere ale diferitelor boli și stări biologice. Sarcinile cele mai comune sunt armonizarea datelor și predicția rezultatelor tratamentului. Ambele pot fi abordate prin abordarea transferului de stil. Fie factori tehnici, fie orice detalii biologice despre eșantioanele pe care am dori să le controlăm (sex, stare biologică, tratament etc.) pot fi utilizate ca componente de stil.

variaționale

Rezultate Soluția de transfer de stil propusă se bazează pe codificatori variaționali condiționali, codificatori Y și descompunerea caracteristicilor contradictorii. Pentru a măsura cantitativ calitatea transferului de stil, s-au folosit clasificatori ai rețelei neuronale care prezic stilul și semantica după antrenamentul privind expresia reală. Comparația cu mai multe abordări existente bazate pe transferul de stil arată că modelul propus are cea mai mare precizie de predicție de stil pentru toate seturile de date considerate, având în același timp o precizie de predicție semantică comparabilă sau cea mai bună.

a lua legatura antonecnovel-soft.com

1. Introducere

Noua eră a științelor moderne ale vieții a început cu dezvoltarea metodelor de secvențiere a acidului nucleic cu randament ridicat - tehnici de secvențiere de nouă generație (NGS). Cantitatea de date genomice și transcriptomice actuale este extraordinară și crește exponențial. Metodele de secvențiere a unei singure celule au permis o descriere și mai detaliată a unui peisaj transcriptomic care a permis descifrarea naturii foarte complexe a subtipurilor celulare, analizarea tiparelor de dezvoltare și a strămoșilor acestora (Saliba și colab., 2014; Stark și colab., 2019).

În prezent, este larg acceptat că profilurile de expresie genică ale celulelor vii au rezultat dintr-un amestec complex de procese biologice diferite și parametri tehnici. În acest moment, au existat mai multe încercări de a modela acest tip de date ca combinații ale unor reprezentări cu dimensiuni reduse corespunzătoare diverselor căi și condiții biologice (Xu și colab., 2019). În această lucrare testăm ipoteza dacă aceste atribute ar putea fi modificate în mod rezonabil și controlabil in silico folosind modelele de învățare profundă.

2 Context

3 metode

3.1 Seturi de date

3.1.1 Atlasul de celule murine (scMCA)

Acest set de date cuprinzând numeroase profiluri de expresie a genei murinei cu o singură celulă a fost produs cu o platformă Microwell-seq de mare randament (Han și colab., 2018), care a permis analiza a peste 400.000 de celule unice din 51 de țesuturi și organe de șoareci extrase de la mai multe animale la condiții fiziologice variate. Datele originale scMCA conțin profiluri de expresie genică pentru peste 800 de tipuri majore de celule murine. Adnotarea detaliată a fost furnizată de autori pentru peste 200.000 de celule unice. O descriere detaliată a datelor poate fi găsită în lucrarea originală (Han și colab., 2018) și online. Acest set de date a fost selectat din următoarele motive majore: (1) conținea cantitatea uriașă de date obținute cu o metodologie consecventă de către același grup de cercetare, făcând astfel, probabil, dispersia tehnică mai puțin profundă; (2) deoarece probele aparțin diferitelor animale, organe/țesuturi și condiții fiziologice distincte s-ar putea construi un model care să descompună aceste surse de variație.

3.1.2 STARmap

Setul de date STARmap a fost folosit pentru reglarea hiperparametrelor și testarea comparativă a modelului nostru față de alte câteva abordări (a se vedea mai jos). Acesta conține valorile de expresie pentru 166 de gene în 3.700 de celule din trei probe biologice separate de șoareci ale cortexului prefrontal medial (Wang și colab., 2018). Setul de date adnotat a fost preluat de la https://github.com/YosefLab/scVI-data/raw/master/mpfc-starmap.loom de la autorii cadrului scVI (Lopez și colab., 2018). Loom este un format de fișier specializat bazat pe HDF5 potrivit pentru seturi de date omics mari, care conține o matrice principală de date și straturi de adnotare suplimentare. Loompy - o bibliotecă Python pentru lucrul cu datele Loom poate fi găsită la: http://loompy.org.

3.1.3 Retină

Setul de date original conține 27.499 celule și 13.166 gene din două loturi (Shekhar și colab., 2016). Acest set de date a fost, de asemenea, utilizat pentru benchmarking. Am folosit adnotarea cluster din 15 tipuri de celule și numărul de expresii genice preprocesate și normalizate furnizate de autorii scVI (Lopez și colab. 2018). Setul de date adnotat poate fi descărcat de pe https://github.com/YosefLab/scVI-data/raw/master/retina.loom.

3.1.4 PBMC

Datele au fost inițial extrase din setul de date SRP073767 de (Zheng și colab. 2017). Este vorba despre datele scARN-seq de la două loturi de PBMC de la un donator sănătos (4.000 și, respectiv, 8.000 de PBMC). Setul de date a fost pregătit așa cum este descris în lucrarea scVI (Lopez și colab., 2018); setul de date adnotat conținea 12.039 celule cu 3.346 gene. Setul de date a fost utilizat pentru analize comparative. Datele privind expresia genei pot fi descărcate de pe https://github.com/YosefLab/scVI-data/raw/master/gene_info.csv și metadatele corespunzătoare - de pe https://github.com/YosefLab/scVI-data/raw /master/pbmc_metadata.pickle.

3.1.5 PBMC tratat cu IFNβ

Pentru validarea biologică am folosit, de asemenea, setul de date care conține controlul și PBMC stimulate de interferon-beta (GSE96583) (Kang și colab., 2018). Datele au fost preluate din exemple scGen (https://github.com/theislab/scgen-reproducibility). Setul de date a fost furnizat de autori (Lotfollahi și colab., 2019a) ca fiind normalizat și transformat în log. Datele au inclus 18.868 celule aparținând a 8 tipuri celulare și 6.998 gene în două condiții. Exemplele pot fi găsite la depozitul lor de proiecte: https://nbviewer.jupyter.org/github/M0hammadL/scGen_notebooks/blob/master/notebooks/scgen_kang.ipynb.

3.2 Dezvoltarea modelului de învățare profundă

3.2.1 Arhitectura autoencoderului

Am folosit neliniaritățile Mish (Misra, D., 2019) și (mini) normalizarea batch în ambele straturi de codificator și decodor. Schema arhitecturală este prezentată în Fig. 1. Schema de discriminare este următoarea: Input-FC (1024) -BatchNorm-LeakyReLU-FC (1024) -BatchNorm– LeakyReLU-FC (N_batches), unde abrevierea FC reprezintă straturi complet conectate.

3.2.2 Instruire autoencoder

Pentru instruirea autoencoderului nostru, am folosit eroarea pătrată medie (MSE) ca funcție de pierdere a reconstrucției. De asemenea, a fost utilizată o pierdere de consistență ciclică: obținem codificările pentru un minibatch, facem un transfer aleator de stil și apoi transferăm stilul înapoi la a doua trecere înainte prin codorul auto.

Pierderea de reconstrucție între valorile obținute în acest fel și expresia inițială este o pierdere de consistență a ciclului. Pentru a impune reprezentarea ascunsă să nu conțină informații despre starea biologică, am maximizat entropia Shannon a predicțiilor discriminatorilor ca pierdere a generatorului. Discriminatorul a fost instruit cu un obiectiv de pierdere a jurnalului. Pierderile auxiliare de la Y-Autoencoders (Pattachiola și colab., 2019) au fost, de asemenea, reduse la minimum. Coeficienții lor au fost stabiliți pentru a reduce dimensionalitatea căutării hiperparametrului.

Pentru regularizare am folosit penalizarea greutății L1 pentru autoencoder împreună cu regularizarea VAE. Pentru stabilizarea antrenamentului adversar, am folosit zgomotul de instanță gaussian (Mescheder, 2018) cu varianța 0,01 pentru discriminator. De asemenea, decuparea gradientului pentru a uni norma a fost utilizată pentru autoencoder și a fost utilizat discriminatorul. Pentru a rezuma, instruirea modelului nostru poate fi descrisă cu pseudocodul prezentat în fișierul suplimentar SF1.

Ponderile pentru fiecare termen din autoencoder împreună cu numărul de straturi de model și hiperparametrul alfa au fost reglate cu căutare aleatorie cu aproximativ 350 de iterații pe setul de date STARmap. Hiperparametrele optime au fost următoarele: cvae_beta = 2e-5; adv_weight = 0,0000001; vae_lr = 0,001; num_epochs = 800; n_straturi = 2; scale_alpha = 1,3; bottleneck_size = 30; greutate_consistență_form = 0,2; batch_size = 128. Pentru a înțelege mai bine acești hiperparametri și rolurile acestora, vă rugăm să consultați fișierul suplimentar SF1 cu pseudocod.

Pentru analiza din aval a ieșirilor autoencoderului, am înlocuit valorile negative prezise cu zero. Au fost utilizate mai multe experimente cu activarea ReLU ca ultim strat pentru a preveni apariția rezultatelor negative, dar acestea au condus la o convergență slabă a modelului.

3.2.3 Arhitectura și instruirea clasificatorilor de valori

Pentru a măsura cantitativ fidelitatea transferului de stil și păstrarea semanticii în timpul acestei proceduri, s-au folosit clasificatori ai rețelei neuronale auxiliare. Aveau nevoie doar să măsoare performanța cadrelor pe sarcina de transfer de stil și nu participau la învățarea lor. Schema de arhitectură este Input-FC (512) -BatchNorm-Mish-FC (256) -BatchNorm-Mish-FC (128) -BatchNorm-Mish-FC (OUTPUT_SIZE). Ambii clasificatori au fost instruiți cu optimizatorul Adam pentru 450 de epoci cu dimensiunea minibatch 128. Rata de învățare a fost setată la 0,003 pentru clasificatorul de tip de celulă și 0,00001 pentru clasificatorul de stil. Acești hiperparametri au fost selectați manual într-un set de experimente.

3.2.4 Arhitectura și instruirea altor cadre

trVAE (Lotfollahi și colab., 2019b). A fost utilizată implementarea de pe https://github.com/theislab/trvaep. Modelul conținea două straturi ascunse atât în ​​codificator, cât și în decodor, cu dimensiuni de 128 și respectiv 32. Dimensiunea stratului gâtului de sticlă a fost setată la 30 (precum și în toate celelalte cadre). Hiperparametrul alfa a fost setat la 0,0001. Modelul a fost instruit pentru 300 de epoci cu dimensiunea minibatch de 512, cu o răbdare de oprire timpurie de 50 de epoci.

scGEN (Lotfollahi și colab., 2019a). A fost utilizată implementarea de pe https://github.com/theislab/scgen. Gâtul de sticlă a fost setat la 30 de neuroni, toți ceilalți hiperparametri au folosit setarea implicită.

scVI (Lopez și colab., 2018). A fost utilizată implementarea de pe https://github.com/YosefLab/scVI. Toate hiperparamele au folosit setarea implicită în afară de numărul de variabile latente, care a fost setat la 30.

CycleGAN (Zhu și colab., 2017). A fost utilizată implementarea de la https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix. Deoarece această implementare a fost menită să fie utilizată pentru datele im-age, am modificat arhitectura autoencoderului la Input-InstanceNorm-ReLU-FC (365) -InstanceNorm-ReLU-FC (30) - In-stanceNorm-ReLU-FC (365 )) -InstanceNorm-ReLU-FC (OUTPUT_SIZE) pentru toate seturile de date în afară de STARmap unde stratul ascuns avea 94 de neuroni în loc de 365 din cauza dimensionalității de intrare mai mici. Schema discriminator a fost modificată la Input-InstanceNorm-ReLU-FC (365) -InstanceNorm-ReLU-FC (1). Funcția de pierdere a criminalității a fost setată la entropie încrucișată binară în loc de eroare pătrată medie. Toate celelalte infrastructuri și hiperparametri au rămas neschimbate.

3.2.5 Procedura de calibrare

O altă abordare simplă pentru validarea modelelor este ceea ce numim o procedură de calibrare. Este conceput pentru a controla faptul că menținerea stilului original al eșantionului în timp ce treceți eșantionul prin model oferă mai puțină abatere de expresie decât un transfer de stil arbitrar. Anume, luăm un eșantion, îi transferăm stilul în toate modurile posibile și verificăm dacă distanța L2 dintre expresia originală și cea decodificată atinge cea mai mică valoare atunci când este utilizat stilul inițial de eșantionare. S-ar putea crede că este un simplu clasificator bazat pe reguli.

3.3 Evaluarea și validarea biologică

3.3.1 Construcția parcelei MA

Fiecare punct de pe complotul MA este o genă. Suma de expresie a fiecărei gene a fost calculată pentru toate eșantioanele aparținând tipului de celulă particular în aceeași stare și s-a adăugat 1.0 pentru a evita divizarea cu proble zero. Abscisa este calculată ca o medie a expresiei log2-transformate a unei gene în două stări comparate. Ordonata este transformarea log2 a schimbării de expresie a pliurilor între două stări comparate.

2.3.2 Expresia diferențială a genelor și analiza îmbogățirii setului de gene

Cu datele scMCA, analiza diferențială a expresiei genelor a fost efectuată utilizând numărarea expresiei normalizate RPM. Semnificația statistică a fost evaluată cu testul Mann-Whitney cu testarea multiplă a corecției valorii p folosind procedura FDR. Mai multe tipuri celulare au fost prelucrate separat: (1) celule stromale/luminale/alveolare - cele implicate funcțional în dezvoltarea glandei mamare și lactație și (2) celule dendritice - celule care prezintă antigen care se așteptau să prezinte diferențe mai puțin profunde între virgin, gravidă și involuție stări. Analiza de îmbogățire GO și KEGG a fost efectuată cu resursa online ShinyGO (v0.60) (Ge și Jung, 2018). Listele genelor murine, asociate cu anumite categorii GO au fost preluate de la Gene Ontology Browser la Mouse Genome Informatic portal (Bult și colab., 2019).

Cu datele tratate cu IFNβ/control PBMC scRNA-Seq, analiza diferențială a expresiei genelor a fost efectuată fie cu testul lui Mann-Whitney, fie cu testul lui Welch cu ajustarea valorii p Bonferroni. Analiza de îmbogățire a termenilor GO a fost efectuată cu pachetul Python goenrich (https://github.com/jdrudolph/goenrich). Toate detaliile pot fi găsite pe caietele Jupyther din depozitul nostru de proiecte.

4 Rezultate

Cercetarea noastră a avut ca scop dezmembrarea informațiilor despre tipul celular și starea biologică în reprezentarea în dimensiuni reduse a datelor de expresie genetică. Întrucât datele privind expresia genelor sunt mai interpretabile și familiare pentru bioinformaticieni și sunt, de asemenea, potrivite pentru analiza în aval a conductelor decât încorporările în dimensiuni reduse, am acordat mai multă atenție evaluării rezultatelor exprimării modelului nostru, mai degrabă decât reprezentării latente. Cu toate acestea, raportăm, de asemenea, două valori legate de reprezentarea latentă, și anume puritatea knn și entropia amestecului în lot (Xu și colab., 2019). Comploturile care ilustrează

Deblocarea poate fi, de asemenea, ilustrată cu următoarele exemple. FIG. 2 și Fig. 3 prezintă proiecțiile 2D ale probelor de testare obținute cu tSNE folosind fie valorile originale ale expresiei genelor, fie expresia recuperată obținută cu modelul nostru, respectiv. Probele sunt colorate în funcție de tipurile de celule (A) și de condiția (B). Se pot vedea cu ușurință grupurile corespunzătoare tipurilor de celule și condiționarea pe ambele parcele. Cu toate acestea, când a fost construită o vizualizare similară folosind reprezentările latente extrase ale probelor ca intrare (Fig. 4), nu au existat clustere corespunzătoare stărilor fiziologice diferite, dar gruparea tipurilor de celule a fost încă observată. Am obținut suplimentar proiecțiile cu dimensiuni reduse ale scMCA și GSE96583 cu UMAP. Cifrele s-au dovedit a fi mai informative și au existat clustere evidente de puncte de date scMCA chiar și pe latente. Figurile corespunzătoare S1 și S2 pot fi găsite în fișierul suplimentar SF2.

Au fost utilizate valori de expresie brute, probele au fost colorate în funcție de tipurile de celule (A) și starea fiziologică (B). perplexitatea tSNE a fost setată la 30.