Evgeny Putin

1 Departamentul Pharma.AI, Insilico Medicine, Inc., Baltimore, MD 21218, SUA

2 Computer Technologies Lab, Universitatea ITMO, St. Petersburg 197101, Rusia

Polina Mamoshina

1 Departamentul Pharma.AI, Insilico Medicine, Inc., Baltimore, MD 21218, SUA

3 Fundația de cercetare a biogerontologiei, Oxford, Marea Britanie

Alexander Aliper

1 Departamentul Pharma.AI, Insilico Medicine, Inc., Baltimore, MD 21218, SUA

Mihail Korzinkin

1 Departamentul Pharma.AI, Insilico Medicine, Inc., Baltimore, MD 21218, SUA

Alexey Moskalev

1 Departamentul Pharma.AI, Insilico Medicine, Inc., Baltimore, MD 21218, SUA

4 Școala de biologie a sistemelor, Universitatea George Mason (GMU), Fairfax, VA 22030, SUA

Alexey Kolosov

5 Invitro Laboratory, Ltd, Moscova 125047, Rusia

Alexander Ostrovskiy

5 Invitro Laboratory, Ltd, Moscova 125047, Rusia

Charles Cantor

6 Departamentul de Inginerie Biomedică, Universitatea din Boston, Boston, MA 02215, SUA

Jan Vijg

7 Departamentul de genetică, Colegiul de medicină Albert Einstein, Bronx, NY 10461, SUA

Alex Zhavoronkov

1 Departamentul Pharma.AI, Insilico Medicine, Inc., Baltimore, MD 21218, SUA

3 Fundația de cercetare a biogerontologiei, Oxford, Marea Britanie

Date asociate

Abstract

INTRODUCERE

Cu toate acestea, majoritatea acestor biomarkeri nu sunt reprezentativi pentru starea de sănătate a întregului organism sau a sistemelor individuale și nu sunt ușor măsurați sau vizați cu intervenții cunoscute. Testul comun de biochimie a sângelui este unul dintre cele mai simple teste utilizate de medici pentru a examina starea de sănătate a pacienților. Deși sunt foarte variabile în natură, unii markeri din biochimia sângelui sunt indicatori sensibili ai diferitelor afecțiuni, cum ar fi inflamația și chiar alcoolismul, și sunt aprobați pentru utilizare clinică [13, 14].

Tehnicile de învățare automată (ML), cum ar fi mașinile vectoriale de suport (SVM), sunt utilizate în mod obișnuit în dezvoltarea biomarkerului [15] și creșterile rapide ale datelor etichetate permit rețelelor neuronale profunde (DNN). Metodele bazate pe arhitecți adânci au depășit abordările clasice nu numai în analiza imaginii, ci și în rezolvarea unei game largi de probleme de genomică, transcriptomică și proteomică [16].

În acest studiu, aplicăm o tehnică de învățare profundă pentru prezicerea vârstei cronologice umane care utilizează mai multe DNN-uri stivuite într-un ansamblu și instruite pe zeci de mii de probe de biochimie a sângelui de la pacienții supuși examinărilor fizice de rutină. Apoi, utilizăm o implementare personalizată a tehnicii de importanță a caracteristicii permutării (PFI) [17] pentru a evalua importanța relativă a fiecărui marker de biochimie a sângelui pentru precizia ansamblului. De asemenea, am analizat performanța și acuratețea a 40 de arhitecturi DNN optimizate folosind o varietate de optimizatori, am identificat cel mai bun DNN și am selectat 21 de DNN care au furnizat cumulativ o precizie mai mare și R2 ca ansamblu decât cel mai bun DNN din ansamblu.

REZULTATE

Pentru a efectua acest studiu, am obținut un set de date de 62.419 înregistrări anonimizate de biochimie a sângelui, în care fiecare înregistrare constă în vârsta, sexul și 46 de markeri standardizați ai sângelui printr-o colaborare cu una dintre cele mai mari rețele de laboratoare din Rusia, Invitro Laboratory, Ltd. Ne-am propus să extragem date dintr-o populație rezonabil de sănătoasă. Deși nu am avut acces la evidența pacienților, am selectat doar teste de sânge din controalele de sănătate de rutină, evitând surse evidente de pacienți nesănătoși, cum ar fi spitalele, și prin analize statistice am omis testele de sânge cu valori anormale.

Conducta de proiect generalizată este descrisă în Figura Figura1. 1. În primul rând, am preprocesat setul de date de testare a sângelui, excluzând markerii cu tendințe mari din intervalele de referință, normalizându-i pentru antrenarea DNN-urilor și eliminând valorile aberante (vezi Metode pentru detalii). Setul de date rezultat a fost împărțit în formare și seturi de testare compuse din 56.177 și respectiv 6242 probe. Apoi, 40 de DNN-uri diferite au fost instruiți pe 56.177 probe de testare a sângelui.

biomarkeri

Seturile de date de biochimie a sângelui de laborator au fost normalizate și curățate de valori anormale și de unii markeri anormali. Pentru predicția biologică a vârstei, 21 de DNN-uri diferite cu parametri diferiți au fost combinate într-un ansamblu bazat pe modelul ElasticNet. Pentru predicția sexuală biologică, au fost instruiți DNN unici.

Deoarece am tratat predicția vârstei umane ca o problemă de regresie, am folosit două valori pentru a estima performanța metodei: coeficientul standard de determinare (R 2) și precizia ε (predicția epsilon) (vezi Metode pentru detalii). Atunci când se utilizează precizia de predicție epsilon, eșantionul este considerat corect recunoscut dacă vârsta prezisă este în intervalul [vârsta adevărată -ε; vârsta adevărată + ε], unde ε controlează nivelul de certitudine în predicție. Deci, dacă ε = 0, atunci este o precizie simplă de clasificare. În acest studiu, am luat în considerare ε = 10. Avantajul cheie al utilizării preciziei de predicție epsilon este că permite analiza cohortei fără intervale de vârstă fixe (de exemplu, 10-20, 20-30).

Cel mai bun DNN unic efectuat cu 0,80 de R 2 și 82% în cadrul de 10 ani al preciziei de predicție epsilon (Figura 2A și B). Un singur DNN a depășit alte modele ML, cum ar fi k-Cei mai apropiați vecini, mașina vectorului de sprijin, pădurile aleatorii, mașina de creștere a gradientului etc. (Figura 3 și B).

(A) Corelația dintre valorile de vârstă reale și cele prevăzute de cel mai bun DNN din ansamblu. (B) Grafic de precizie a epsilonului de vârstă biologică pentru cel mai bun DNN. (C) Importanța markerului de vârstă biologică, realizată utilizând metoda FPI. (D) Corelația dintre valorile de vârstă reale și cele prevăzute de ansamblul întreg, pe baza modelului ElasticNet. (E) Graficul preciziei epsilon-predicție de vârstă biologică pentru ansamblu. (F) Harta de căldură pentru coeficienții de corelație ai lui Pearson între 40 DNN. Culorile barelor de scară indică semnul și amploarea coeficientului de corelație al lui Pearson între predicțiile DNN-urilor.

DNN au fost comparate cu tehnici de 7 ML: GBM (Gradient Boosting Machine), RF (Păduri aleatorii), DT (arbori de decizie), LR (regresie liniară), kNN (k-cei mai apropiați vecini), ElasticNet, SVM (suport Vector Machines). (A) GBM arată 0,72 R 2 mai mare printre modelele ML pentru predicția biologică a vârstei. (B) Toate modelele ML au R 2 comparabil ridicat pentru predicția biologică a sexului.

Pentru a crește în continuare coeficientul de determinare și acuratețea predicțiilor, am combinat aceste DNN unice într-un ansamblu bazat pe tehnica generalizată stivuită (Stacking) [18]. Stivuirea este o metodă care se potrivește unor modele ML pe predicțiile altor modele, în cazul nostru cu predicțiile DNN-urilor. Selecția modelului a fost efectuată cu validare încrucișată de 10 ori și cu strategia de căutare aleatorie pentru găsirea celor mai buni hiperparametri pentru modelele considerate. Experimentele cu modelele Stacking au arătat (Figura 4A și B) că cel mai bun model ML a fost ElasticNet.

(A) Modelul ElasticNet are o precizie mai mare de predicție a epsilonului printre modelele de stivuire. (B) ElasticNet este cel mai bun model pentru stivuire din punctul de vedere al statisticilor R 2. (C) Strategia de umplere mediană are o precizie mai mare a predicției epsilon decât alte strategii. Strategia de umplere mediană arată o precizie epsilon de 64,5% în decurs de 10 ani. (D) Strategia de umplere mediană este mai bună din punctul de vedere al statisticilor R 2.

Pentru a combina cu succes predicțiile DNN-urilor în modelul ansamblului Stacking, predicțiile DNN-urilor ar trebui să aproximeze îndeaproape variabila țintă și să difere între ele sau să fie mai puțin corelate. Pentru a realiza acest lucru, DNN-urile ar trebui instruite cu hiperparametri diferiți, variind în ceea ce privește numărul de straturi, numărul de neuroni din fiecare strat, funcțiile de activare, tehnicile de regularizare etc. Am investigat 40 de DNN-uri, fiecare unic în termeni de hiperparametri. Corelațiile Pearson ale acestor DNN sunt prezentate într-o hartă de căldură din Figura 2F, 2F, prezentând un grad ridicat de similitudine între multe rețele în ceea ce privește predicțiile (r care se apropie de 1), dar și unele distincții majore.

Pentru a determina câte dintre aceste DNN instruite au fost necesare pentru construirea modelului ansamblului Stacking, am efectuat un proces iterativ de adăugare a vectorului de predicții al fiecărui DNN în ansamblu. Au fost utilizate două strategii iterative: adăugarea de predicții prin scăderea R 2 a fiecărei rețele, adică adăugarea unor rețele mai bune luând în considerare R 2 mai devreme în ansamblu și creșterea corelației dintre DNN-uri, adică adăugând mai întâi rețele mai puțin corelate. Rezultatele acestei analize sunt prezentate în Figura S2. Ambele strategii au arătat că nu au fost necesare mai mult de 21 de DNN-uri în ansamblu. Ansamblul rezultat din distingerea corelațiilor DNN-urilor și ordonarea adăugării DNN-urilor în ansamblu a demonstrat R 2 = 0,82 și 83,5% într-un cadru de 10 ani de precizie de predicție epsilon (Figura 2D și E).

Am comparat predictorul nostru învățat profund cu mai mulți markeri de epigenetică și transcriptomică publicați ai vârstei umane. În mod surprinzător, în ciuda faptului că am folosit numai date de biochimie a sângelui cu 41 de valori pentru fiecare pacient, biomarkerul nostru a depășit biomarkerii transcriptomici ai sângelui, prezentați de Peters și colab., Cu R 2 = 0,6 pentru cel mai bun model [8]. Datorită naturii datelor, markerii epigenetici arată o corelație mai puternică cu vârsta cronologică, cu R 2 = 0,93 pentru ceasul de metilare Horvath și R 2 = 0,89 pentru ceasul Hannum et metilare [6, 7].

Importanța marcatorului

Pentru a analiza importanța markerilor de testare a sângelui prin intermediul rețelelor neuronale, sunt necesare unele abordări ale importanței caracteristicii învelișului (selecție). Am folosit o modificare a metodei Permutation Feature Importance (PFI) (a se vedea Metode pentru detalii). Prin aplicarea acestei metode, se primește o listă sortată după importanța markerilor prin DNN. Această tehnică are două avantaje: 1) este nativă și simplă de interpretat și 2) ca alte metode de împachetare se bazează pe performanța DNN, care în acest caz este mai bună decât alte modele ML, producând astfel caracteristici mai robuste și semnificative. Analiza importanței markerilor prin metoda PFI, ale cărei rezultate sunt prezentate în Figura 2C, 2C, relevă cei cinci markeri importanți: albumina, glucoza, fosfataza alcalină, ureea și eritrocitele.

Caracteristici de top

De asemenea, am efectuat așa-numita analiză a caracteristicilor de top, care răspunde la modul în care performanța unui singur DNN va scădea pe măsură ce numărul de markeri utilizați în model scade. Pentru a selecta numărul mai mic de markeri pentru instruirea DNN, se utilizează lista sortată a tuturor scorurilor PFI. Rezultatele acestei analize atât pentru R 2 cât și pentru precizia de predicție a epsilonului sunt prezentate în Figura 5A și B. Pentru primele 10 caracteristici ale PFI, DNN a obținut R 2 = 0,63 și 70% din predicția de precizie a epsilonului de cadru pe 10 ani. În termeni practici, faptul că această scădere a performanței a fost atât de mică susține primii 10 markeri primiți de PFI ca caracteristici robuste și fiabile pentru prezicerea vârstei.