Departamentul de biologie a sistemelor de afiliere, Centrul medical și de cercetare Sidra, Doha, Qatar

clasificator

Laboratoire Cedric de afiliere, CNAM, Paris, Franța

Centrul de cercetare clinică de afiliere, Centrul medical și de cercetare Sidra, Doha, Qatar

  • Sabri Boughorbel,
  • Fethi Jarray,
  • Mohammed El-Anbari

Cifre

Abstract

Citare: Boughorbel S, Jarray F, El-Anbari M (2017) Clasificator optim pentru date dezechilibrate folosind coeficientul de corelație Matthews metric. PLoS ONE 12 (6): e0177678. https://doi.org/10.1371/journal.pone.0177678

Editor: Quan Zou, Universitatea Tianjin, CHINA

Primit: 3 ianuarie 2017; Admis: 30 aprilie 2017; Publicat: 2 iunie 2017

Disponibilitatea datelor: Datele utilizate în această lucrare sunt disponibile publicului și sunt colectate în următorul depozit: https://github.com/bsabri/mcc_classifier/.

Finanțarea: Această lucrare a fost susținută de Fundația Qatar.

Interese concurente: Autorii au declarat că nu există interese concurente.

1. Fundal

Cu excepția Accuracy, celelalte valori sunt potrivite pentru date dezechilibrate.

1.1 SVM pentru învățare dezechilibrată

Pentru un punct de referință, am selectat Support Vector Machine (SVM) pentru date dezechilibrate ca metodă bună din literatură. SVM efectuează clasificarea prin găsirea hiperplanului (wx + b) care maximizează marja dintre cele două clase. Cu toate acestea, există situații în care o graniță neliniară poate separa grupurile mai eficient. SVM gestionează acest lucru utilizând o funcție de nucleu (neliniară) pentru a mapa datele într-un spațiu cu dimensiuni ridicate. Performanța clasificatorului SVM se bazează în principal pe alegerea funcției kernelului și reglarea diferiților parametri în funcția kernel Funcția bazei radiale Gauss se numără printre nucleele populare. Pentru seturile de date dezechilibrate folosim de obicei o penalizare de clasificare greșită pe clasă. Aceasta se numește SVM ponderat la clasă, care minimizează următorul program: unde ξi este o variabilă slack pozitivă astfel încât, dacă 0 1, atunci instanța i este clasificată greșit. Parametrii C + și C - sunt penalitățile slabe pentru clasele pozitive și negative receptiv.

În această lucrare, am folosit un SVM de dezechilibru cu nucleul Gaussian astfel încât pentru două cazuri x și x ′, avem K (x, x ′) = exp (−γ || x - x ′ || 2). Modelul global are trei parametri C +, C - și γ. Figura 1 oferă un exemplu al efectului introducerii a două greutăți de regularizare asupra rezultatelor clasificării. Limita de decizie este deplasată către clasa majoritară și, prin urmare, performanța îmbunătățită în acest exemplu.

Am efectuat o analiză experimentală pentru a stabili valoarea acestor parametri pe baza datelor de instruire. Am folosit regula generală sugerată de Akbani și colab. că raportul este egal cu raportul dintre clasa minorității și majorității [11].

Restul acestei lucrări este organizat după cum urmează. În secțiunea 2, descriem o versiune a mașinilor vectoriale de suport care gestionează date dezechilibrate. În secțiunea 3, propunem un clasificator optim bazat pe metrica MCC. Arătăm că este consecvent, adică converge asimptotic la clasificatorul teoretic optim. În ultima secțiune, prezentăm și discutăm rezultatele experimentale.

2 valori MCC pentru date dezechilibrate

2.1 Definiția MCC

Metrica MCC a fost introdusă pentru prima dată de B.W. Matthews pentru a evalua performanța predicției structurii secundare a proteinelor [12]. Apoi, devine o măsură de performanță utilizată pe scară largă în cercetarea biomedicală [13-17]. MCC și Area Under ROC Curve (AUC) au fost alese ca metrice electivă în inițiativa MAQC-II condusă de FDA din SUA, care își propune să ajungă la un consens cu privire la cele mai bune practici pentru dezvoltarea și validarea modelelor predictive pentru medicina personalizată [16].

Fie spațiul de instanță, X un vector de intrare aleatoriu evaluat real și Y ∈ o variabilă de ieșire binară, cu distribuție comună. Fie Θ spațiul clasificatorilor. Definim cantitățile:, și. Definim probabilitatea condițională .

MCC poate fi văzut ca o discretizare a corelației Pearson pentru variabilele binare. De fapt, având în vedere doi n-vectori X = (x1, ..., xn) t și y = (y1, ..., yn) t, reamintim că coeficientul de corelație liniară eșantion este dat de

Dacă X și y sunt binare, folosind unele algebre, avem

2.2 Adecvarea MCC pentru date dezechilibrate

Pentru a demonstra adecvarea MCC pentru date dezechilibrate, am luat în considerare următoarele simulări: Am generat 10000 etichete de clasă aleatorii astfel încât proporția clasei 1 să fie egală cu valoarea predefinită π Fig 2. Compararea performanței celor 3 clasificatori descriși în Tabelul 3.

Acestea sunt utilizate pentru a evalua comportamentul valorilor din Tabelul 2 pentru date dezechilibrate.

2.3 Clasificator consecvent optim pentru metrica MCC

Coeficientul de corelație Matthews (MCC) este definit în termeni de adevărat pozitiv (TP), adevărat negativ (TN), fals pozitiv (FP) și fals negativ (FN). De asemenea, poate fi rescris în termeni de TP, γ și π după cum urmează:

Ne amintim că este și. Dacă se consideră că clasa mică are eticheta 1, π corespunde proporției clasei minoritare. Cităm aici câteva dintre observațiile despre metrica MCC așa cum au menționat Baldi și colab. [21]:

  • MCC poate fi calculat folosind matricea de confuzie.
  • Calculul metricei MCC utilizează cele patru mărimi (TP, TN, FP și FN), ceea ce oferă un rezumat mai bun al performanței algoritmilor de clasificare.
  • MCC nu este definit dacă oricare dintre cantitățile TP + FN, TP + FP, TN + FP sau TN + FN este zero.
  • MCC ia valori în intervalul [−1, 1], cu 1 care arată un acord complet, −1 un dezacord complet și 0 care arată că predicția a fost necorelată cu adevărul de la sol.

Teoremele 1 și 2 oferă forma optimă a clasificatorului MCC și, respectiv, consistența acestuia. Deoarece pragul optim δ * depinde de TP * nu poate fi utilizat direct în Algoritmul 1. În schimb, poate fi utilizată o căutare în grilă pentru determinarea pragului optim.

Amintim că distribuția satisface ipoteza A (AA pe scurt) dacă P (ηx ≺ c | y = 1) și P (ηx ≺ c | y = 0) sunt continue pentru. Observăm că AA se verifică în special dacă variabilele aleatorii (ηx | y = 1) și (ηx | y = 0) sunt continue.

Teorema 1. (Clasificator optim pentru metrica MCC) Fie o distribuție pe care satisface ipoteza A. Clasificatorul binar optim pentru metrica MCC este un clasificator prag θ * (x) = semn [(TP - γπ) (ηx - δ *)] unde pragul δ * este definit de .

Dovada teoremei implică utilizarea derivatei Frechet care generalizează noțiunea de derivare la funcții. Prin urmare, este posibil să se obțină o formă apropiată a clasificatorului optim. Teorema 1 asigură că clasificatorul optim este fie semnul [(ηx - δ *)], fie semnul [- (ηx - δ *)], deoarece termenul (TP - γπ) este necunoscut înainte de a proiecta clasificatorul. Ideea algoritmului de clasificare optimă constă în găsirea celor mai buni clasificatori dintre setul de clasificatori semn [(ηx - δ)] și semn [- (ηx - δ)] pentru o anumită constantă δ. Observăm că ambii clasificatori se numără printre spațiul nostru de clasificatori Θ. În primul rând, împărțim setul de antrenament în două seturi disjuncte S1 și S2. În al doilea rând, estimăm distribuția condițională ηx pe S1 utilizând de exemplu o regresie logistică regularizată. În al treilea rând, pentru fiecare valoare a lui δ, calculăm performanța MCC a clasificatorilor asociați semnul [(ηx - δ)] și semnul [- (ηx - δ)] pe baza setului S2. În cele din urmă, aplicăm o căutare în grilă pe δ pentru a selecta cel mai bun clasificator cu cea mai mare performanță MCC.

Algoritmul poate fi descris după cum urmează:

Algoritmul 1: Algoritm pentru estimarea clasificatorului optim MCC.

1 Împarte setul de antrenament în două seturi S1 și S2

3 Calculați pe S2; unde pentru clasificator θ

4 Dacă apoi reveniți, altfel reveniți

O altă proprietate interesantă este verificarea consistenței statistice a clasificatorului optim MCC. Această proprietate asigură că clasificatorul estimat converge în probabilitate la clasificatorul teoretic. Oferă garanții asimptotice că clasificatorul se apropie de cel mai bun clasificator teoretic pe măsură ce crește dimensiunea datelor de antrenament.

Teorema 2. (Coerența clasificatorului optim). Clasificatorul optim definit în teorema 1 este consecvent dacă estimarea este obținută folosind o funcție de pierdere adecvată [22, 23].

Dovezile teoremelor 1 și 2 sunt furnizate în materialul suplimentar S1 File.

3. Rezultate

3.1 Date sintetice

Axa x prezintă valorile posibile în spațiul caracteristicii. Axa y prezintă valori de probabilitate. δ *, afișat în roșu, este pragul optim derivat. Curba verde descrie clasificatorul optim obținut prin căutarea exhaustivă maximizând MCC.

3.2 Date din lumea reală