Héctor Climente-González, Chloé-Agathe Azencott, Samuel Kaski, Makoto Yamada, Block HSIC Lasso: model-free biomarker detection for ultra-high dimensional data, Bioinformatics, Volume 35, Issue 14, July 2019, Pages i427 - i435, https: //doi.org/10.1093/bioinformatics/btz333

blochează

Abstract

Găsirea de relații neliniare între biomolecule și un rezultat biologic este costisitoare din punct de vedere calculator și o provocare statistică. Metodele existente au dezavantaje importante, inclusiv printre altele lipsa de parsimonie, non-convexitate și cheltuieli generale de calcul. Aici propunem blocul HSIC Lasso, un selector de caracteristici neliniar care nu prezintă dezavantajele anterioare.

Comparăm blocul HSIC Lasso cu alte tehnici de selecție a caracteristicilor de ultimă generație, atât în ​​date sintetice, cât și în date reale, inclusiv experimente pe trei tipuri comune de date genomice: microarrays de expresie genică, secvențierea ARN cu o singură celulă și studii de asociere la nivel de genom. . În toate cazurile, observăm că caracteristicile selectate de blocul HSIC Lasso păstrează mai multe informații despre biologia subiacentă decât cele selectate prin alte tehnici. Ca o dovadă a conceptului, am aplicat blocul HSIC Lasso la un experiment de secvențiere cu ARN cu o singură celulă pe hipocampus de șoarece. Am descoperit că multe gene legate în trecut de dezvoltarea și funcția creierului sunt implicate în diferențele biologice dintre tipurile de neuroni.

Blocul HSIC Lasso este implementat în pachetul Python 2/3 pyHSICLasso, disponibil pe PyPI. Codul sursă este disponibil pe GitHub (https://github.com/riken-aip/pyHSICLasso).

Date suplimentare sunt disponibile la Bioinformatics online.

1. Introducere

Descoperirea biomarkerilor, scopul multor experimente bioinformatice, vizează identificarea câtorva biomolecule cheie care explică majoritatea fenotipului observat. Fără o ipoteză prealabilă puternică, acești markeri moleculari trebuie identificați din datele generate de tehnologii de mare viteză. Din păcate, găsirea moleculelor relevante este o problemă combinatorie: pentru caracteristicile d, trebuie luate în considerare 2 d opțiuni binare. Deoarece numărul de caracteristici depășește cu mult numărul de eșantioane, descoperirea biomarkerilor este o problemă de înaltă dimensiune. Provocările statistice puse de astfel de spații cu dimensiuni ridicate au fost revizuite cu atenție în altă parte (Clarke și colab., 2008; Johnstone și Titterington, 2009). În general, datorită blestemului dimensionalității, montarea modelelor în multe dimensiuni și pe un număr mic de probe este extrem de dificilă. Mai mult, din moment ce biologia este complexă, un model statistic simplu, cum ar fi o regresie liniară, ar putea să nu poată găsi biomarkeri importanți. Cei care se găsesc în astfel de experimente sunt adesea greu de reprodus, ceea ce sugerează o supra-dotare. Explorarea spațiului soluției și găsirea biomarkerilor adevărați nu sunt doar provocatoare statistic, ci și costisitoare din punct de vedere al calculului.

În termeni de învățare automată, descoperirea biomarkerului poate fi formulată ca o problemă de selecție a caracteristicilor: identificarea celui mai bun subset de caracteristici pentru a separa între categorii sau pentru a prezice un răspuns continuu. În ultimele decenii, au fost propuși mulți algoritmi de selecție a caracteristicilor care se ocupă de seturi de date cu dimensiuni ridicate. Datorită dificultăților ridicate de dimensionalitate ridicată, metodele liniare tind să fie selectorul de caracteristici de alegere în bioinformatică. Un selector de caracteristici liniare utilizat pe scară largă este cel mai mic operator de contracție și selecție, sau Lasso (Tibshirani, 1996). Lasso se potrivește unui model liniar între caracteristicile de intrare și fenotip prin minimizarea sumei pierderii minime pătrate și a unui termen de penalizare de ℓ 1. Echilibrul dintre pierderea minimă pătrată și penalizare asigură faptul că modelul explică combinația liniară de caracteristici, păstrând în același timp numărul de caracteristici din model. Cu toate acestea, în multe cazuri fenomenele biologice nu se comportă liniar. În astfel de cazuri, nu există nicio garanție că Lasso poate capta acele relații neliniare sau un efect de dimensiune adecvat pentru a le reprezenta.

În ultimul deceniu, au fost propuși mai mulți algoritmi de selecție a caracteristicilor neliniare pentru seturi de date cu dimensiuni ridicate. Unul dintre cele mai utilizate, numit Sparse Additive Model, sau SpAM (Ravikumar și colab., 2009), modelează rezultatul ca o combinație liniară rară de funcții neliniare bazate pe nuclee. Cu toate acestea, deoarece SpAM presupune un model aditiv peste caracteristicile selectate, nu poate selecta caracteristici importante dacă fenotipul nu poate fi reprezentat de funcțiile aditive ale caracteristicilor de intrare - de exemplu, dacă există o relație multiplicativă între caracteristici (Yamada și colab., 2014 ).

O altă familie de selectoare de caracteristici neliniare se bazează pe asociere: calculează scorul asocierii statistice între fiecare caracteristică de intrare și rezultat și clasifică caracteristicile în consecință. Deoarece aceste abordări nu presupun niciun model despre rezultat, ele pot detecta caracteristici importante atâta timp cât există o asociere. Când se utilizează o măsură de asociere neliniară, cum ar fi informațiile reciproce (Cover și Thomas, 2006) sau Hilbert - Schmidt Independence Criterion (HSIC) (Gretton și colab., 2005), ele selectează caracteristicile cu cea mai puternică dependență de fenotip. Cu toate acestea, metodele bazate pe asociere nu iau în considerare redundanța dintre caracteristici, care este frecventă în seturile de date biologice, deoarece nu modelează relațiile dintre caracteristici. Prin urmare, multe caracteristici redundante sunt de obicei selectate, împiedicând interpretabilitatea. Acest lucru este important în aplicații precum descoperirea țintelor de droguri, unde doar un număr mic de ținte pot fi validate și este crucial să discriminăm cea mai importantă țintă din multe alte ținte de top.

Pentru a rezolva problema caracteristicilor redundante, Peng și colab. (2005) au propus algoritmul minim de redundanță maximă (RMR). RMN poate selecta un set de caracteristici non-redundante care au o asociere ridicată cu fenotipul, penalizând în același timp selecția caracteristicilor reciproc dependente. Ding și Peng (2005) au folosit RMN pentru a extrage biomarkeri din datele microarray, constatând că genele selectate au captat mai bine variabilitatea fenotipurilor decât cele identificate prin abordări de ultimă generație. Cu toate acestea, RMN are trei dezavantaje principale: problema de optimizare este discretă; trebuie rezolvată printr-o abordare lacomă și estimarea informațiilor reciproce este dificilă (Walters-Williams și Li, 2009). Mai mult, nu se știe dacă funcția obiectivă a RMN are proprietăți teoretice bune, cum ar fi submodularitatea (Fujishige, 2005), care ar garanta optimitatea soluției.

Recent, Yamada și colab. (2014) au propus un algoritm mRMR bazat pe nucleu numit HSIC Lasso. În loc de informații reciproce, HSIC Lasso folosește HSIC (Gretton și colab., 2005) pentru a măsura dependența dintre variabile. În plus, folosește un termen de penalizare ℓ 1 pentru a selecta un număr mic de caracteristici. Aceasta are ca rezultat o problemă de optimizare convexă, pentru care se poate găsi o soluție optimă la nivel global. În practică, sa constatat că HSIC Lasso depășește RMN în mai multe setări experimentale (Yamada și colab., 2014). Cu toate acestea, HSIC Lasso este intensiv în memorie: complexitatea memoriei sale este O (d n 2) (, unde d este numărul de caracteristici și n este numărul de eșantioane. Prin urmare, HSIC Lasso nu poate fi aplicat seturilor de date cu mii de probe, răspândite în prezent în biologie. O versiune MapReduce a HSIC Lasso a fost propusă pentru a aborda acest dezavantaj și poate selecta caracteristici în setări ultra-dimensionale (10 6 caracteristici, 10 4 mostre) în câteva ore (Yamada și colab., 2018). Cu toate acestea, necesită un număr mare de noduri de calcul, inaccesibile laboratoarelor obișnuite. Deoarece se bazează pe aproximarea Nyström a matricilor Gram (Schölkopf și Smola, 2002), problema finală de optimizare nu mai este convexă și, prin urmare, găsirea unei soluții optime la nivel global nu poate fi ușor garantată.

În acest articol, propunem blocul HSIC Lasso: un algoritm de selecție a caracteristicilor neliniare simplu, dar eficient bazat pe HSIC Lasso. Ideea cheie este de a utiliza estimatorul HSIC recent propus în bloc (Zhang și colab., 2018) pentru a estima termenii HSIC. Prin împărțirea datelor în blocuri de dimensiunea B ≪ n ⁠, complexitatea memoriei HSIC Lasso merge de la O (d n 2) în jos la O (dnB) (. Mai mult, problema de optimizare a blocului HSIC Lasso rămâne convexă. Prin aplicarea sa la date sintetice și seturi de date biologice, arătăm că blocul HSIC Lasso poate fi aplicat la o varietate de setări și se compară favorabil cu algoritmul vanil HSIC Lasso și alte abordări de selecție a caracteristicilor, liniare și neliniare, deoarece selectează caracteristici mai mult informativ asupra rezultatului biologic. Considerații suplimentare cu privire la stadiul tehnicii și relevanța blocului HSIC Lasso pot fi găsite în Fișa suplimentară 1 .

2. Materiale și metode

2.1 Formularea problemei

Să presupunem un set de date cu n eșantioane descrise de d caracteristici cu valoare reală, fiecare corespunzând unei biomolecule (de exemplu, expresia unui transcript sau numărul de alele majore observate la un SNP dat) și o etichetă, continuă sau binară, care descrie rezultatul interesului (de exemplu, abundența unei proteine ​​țintă sau starea bolii). Notăm a eia eșantion cu x i = [x i (1), x i (2),…, x i (d)] d ∈ R d ⁠, unde ⊤ denotă transpunere; și eticheta acestuia cu y i ∈ Y ⁠, unde Y = < 0, 1 >pentru un rezultat binar, corespunzător unei probleme de clasificare, și Y = R pentru un rezultat continuu, corespunzător unei probleme de regresie. În plus, notăm cu f k = [x 1 (k), x 2 (k),…, x n (k)] ⊤ ∈ R n caracteristica k din date.

Scopul selecției caracteristicilor supravegheate este de a găsi m caracteristici (⁠ m ≪ d () care sunt cele mai relevante pentru prezicerea ieșirii y pentru un eșantion x ⁠ .