Selecția unei populații celulare foarte omogene pentru analiza variabilității. (A) Grafic de încorporare tridimensional PHATE pentru celulele din faza G1 ale GM12878. Fiecare punct reprezintă o singură celulă în spațiul tridimensional. Cercul roșu indică pozițiile aproximative ale 1000 de celule selectate. (B) Integrarea graficelor generate pentru cele 1000 de celule selectate cu un algoritm t-SNE cu o serie de valori de perplexitate.

variabilitatea

Identificarea genelor foarte variabile (HVG). (A) Relația dintre CV 2 și expresia medie a genelor în LCL GM12878. Linia portocalie arată tendința curbei de potrivire gamma GLM între CV 2 și expresia medie și utilizată pentru identificarea HVG-urilor. Pentru fiecare genă, variabilitatea reziduală este calculată ca diferență între CV 2 observat și CV 2 așteptat din curba potrivită. (B) Profiluri de expresie ale HVG-urilor selectate și ale genelor cu variații reduse între celule. Celulele sunt nesortate și rămân o ordine aleatorie. Fiecare linie verticală este o celulă, iar înălțimea liniei indică nivelul de expresie genică în număr pe milion (CPM) într-o celulă.

Rețele de coexpresie ale HVG-urilor de top. (A) Rețea de coexpresie între cele mai variabile HVG ale LCL și două motive de legare îmbogățite identificate în aceste HVG. (B) și (C) sunt pentru LAEC și, respectiv, pentru DF. Genele etichetate în galben sunt cele care acționează ca un „hub” cu o centralitate între distanță mare și strâns relevante pentru funcția de tip celular.

Rețea de reglare a genelor și matricea de corelație a LCL HVG. (A) Un model de rețea de reglementare NF-κB pentru diferențierea celulei B secretoare activate (ABC), diferențierea celulei secretoare de anticorpi (ASC), modificat de la [60]. Fontul cu caractere îngroșate indică HVG-uri; asteriscul indică TF-urile din amonte care vizează HVG-urile; linia solidă linie punctată indică relația de reglare susținută de corelația dintre două gene corespunzătoare, iar linia punctată indică relația de reglare care nu este susținută de corelația de expresie dintre gene. (B) Grafic de dispersie a celulelor, care arată corelația dintre nivelurile de expresie a trei HVG: IRF4, AICDA (AID) și PRDM1 (Blimp-1). Bara de culori indică nivelul de expresie al PRDM1 (Blimp-1). (C) Matricea de corelație Spearman între nivelurile de expresie a opt gene implicate în model. Căsuțele verzi indică faptul că semnul corelației dintre cele două gene este în concordanță cu efectul (inducerea/reprimarea) relației dintre cele două în modelul de reglementare. Casetele roșii indică inconsistență, în timp ce casetele gri nu indică nicio relație directă în funcție de model.

Corelația dintre scEV (adică, variabilitatea reziduală estimată din LCL GM12878) și variabilitatea expresiei la nivel de populație (măsurată în LCL derivate de la indivizi fără legătură de origine europeană, CEU) între genele seturilor de gene selectate. Mai multe exemple pot fi găsite în figura suplimentară S6 .

Comparația magnitudinii variabilității expresiei monocelulare (scEV) între gene între (A) celule stem pluripotente induse nediferențiate (iPSC) și (B) trei tipuri de celule diferențiate: Linia celulară limfoblastoidă (LCL), celula epitelială a căilor respiratorii pulmonare (LAEC), și fibroblastul dermic (DF). Pentru fiecare tip de celulă, este prezentată relația dintre coeficientul de variație pătrat (CV 2) și expresia medie a genelor.

Abstract

1. Introducere

2. Materiale și metode

2.1. LCL Cell Culture and scARN-seq Experiment

5000 pe linie celulară) au fost apoi peletați și resuspendați în apă fără nuclează pe baza tabelului de calcul al volumului suspensiei celulare, urmat de generarea GEM (gel bead-in-emulsions) și codarea în bare, curățarea post-GEM-RT, amplificarea ADNc, și construcția și secvențierea bibliotecii. Experimentele au fost efectuate la Texas A&M Institute for Genome Sciences and Society. Secvențierea a fost efectuată în instalațiile Centrului Genomului din North Texas folosind un secvențiator Novaseq 6000 (Illumina, San Diego, CA, SUA). Citirile brute pentru fiecare celulă au fost analizate folosind Cell Ranger (v2.0.0, 10 × Genomics, Pleasanton, CA, SUA) și rezultatele au fost aliniate la genomul uman de referință (GRCh38) pentru a obține numărul [31].