Roluri Curarea datelor, Analiza formală, Investigație, Metodologie, Resurse, Software, Vizualizare, Scriere - schiță originală, Scriere - revizuire și editare

populației

Afilieri BIOSOFT.RU, LLC, Novosibirsk, Federația Rusă, Institutul de Tehnologii Computaționale SB RAS, Novosibirsk, Federația Rusă, Institutul de Citologie și Genetică SB RAS, Novosibirsk, Federația Rusă

Roluri Analiză formală, metodologie, scriere - schiță originală, scriere - recenzie și editare

Afilieri BIOSOFT.RU, LLC, Novosibirsk, Federația Rusă, Institutul de Tehnologii Computaționale SB RAS, Novosibirsk, Federația Rusă

Roluri Arhivarea datelor, Resurse

Afilieri BIOSOFT.RU, LLC, Novosibirsk, Federația Rusă, Institutul de Tehnologii Computaționale SB RAS, Novosibirsk, Federația Rusă

Roluri Conceptualizare, metodologie, scriere - recenzie și editare

Afilieri BIOSOFT.RU, LLC, Novosibirsk, Federația Rusă, Universitatea de Stat Novosibirsk, Novosibirsk, Federația Rusă

Afilieri BIOSOFT.RU, LLC, Novosibirsk, Federația Rusă, Institutul de Tehnologii Computaționale SB RAS, Novosibirsk, Federația Rusă

Roluri Conceptualizare, Curarea datelor, Metodologie, Administrarea proiectelor, Resurse, Supraveghere, Scriere - revizuire și editare

Afilieri BIOSOFT.RU, LLC, Novosibirsk, Federația Rusă, Institutul de Tehnologii Computaționale SB RAS, Novosibirsk, Federația Rusă

  • Semyon K. Kolmykov,
  • Yury V. Kondrakhin,
  • Ivan S. Yevshin,
  • Ruslan N. Sharipov,
  • Anna S. Ryabova,
  • Fedor A. Kolpakov

Cifre

Abstract

Citare: Kolmykov SK, Kondrakhin YV, Yevshin IS, Sharipov RN, Ryabova AS, Kolpakov FA (2019) Estimarea dimensiunii populației pentru controlul calității seturilor de date ChIP-Seq. PLoS ONE 14 (8): e0221760. https://doi.org/10.1371/journal.pone.0221760

Editor: Li Chen, Universitatea Auburn - Școala de Farmacie Harrison, STATELE UNITE

Primit: 6 iunie 2019; Admis: 14 august 2019; Publicat: 29 august 2019

Disponibilitatea datelor: Toate datele relevante se găsesc în lucrare.

Finanțarea: Această lucrare este susținută de Fundația Rusă pentru Știință, acordul de grant № 19-14-00295 (http://rscf.ru/en/) către SKK, YVK, ISY, RNS, ASR, FAK. Finanțatorul nu a avut nici un rol în proiectarea studiului, colectarea și analiza datelor, decizia de publicare sau pregătirea manuscrisului.

Interese concurente: Autorii au declarat că nu există interese concurente.

Introducere

Înțelegerea mecanismelor de bază ale reglării transcripției rămâne a fi marea provocare în biologia modernă. Reglarea transcrierii este un proces complex în care factorii de transcripție (TF) joacă rolul cheie. De regulă, TF-urile recunosc și se leagă cu siturile de legare TF corespunzătoare (TFBS) din genom. Recunoașterea in silico a acestor TFBS în genomuri întregi a rămas una dintre cele mai complexe probleme din bioinformatică. În zilele noastre, imunoprecipitarea cromatinei urmată de secvențiere (ChIP-Seq) este o tehnologie experimentală utilizată pe scară largă pentru identificarea regiunilor de legare a TF (TFBR) care conțin TFBS. Deocamdată au fost efectuate zeci de mii de experimente ChIP-Seq. Este rezonabil să presupunem că acest număr va crește rapid de la an la an.

Până acum, au fost create mai multe baze de date, cum ar fi ENCODE [1], GTRD [2], ChIP-Atlas [3] și ReMap [4]. Noi seturi de date distincte au fost colectate, adnotate și procesate uniform acolo, inclusiv date despre TFBR obținute prin aplicarea diferiților apelanți de vârf la datele primare ChIP-Seq. Este firesc să presupunem că creșterea numărului de seturi de date colectate nu necesită manual, ca înainte, ci o evaluare automată a calității pentru a simplifica selecția seturilor de date adecvate pentru o analiză ulterioară. În prezent, practica obișnuită de evaluare a calității seturilor de date ChIP-Seq este aplicarea unor metrici de calitate bine cunoscute dezvoltate în cadrul proiectului ENCODE. De exemplu, se aplică valori cum ar fi NRF (Non-redundancy Fraction), PBC1, PBC2 (PCR Bottlenecking Coefficient 1 and 2), NSC (Normalized Strand Cross-correlation coeficient) și RSC (Relative Strand Cross-correlation coeficient) măsurați calitatea alinierilor citite la genomii individuali [5]. Pentru a estima direct calitatea seturilor de date ChIP-Seq produse de apelanți de vârf distincti, se utilizează în mod obișnuit metricele FRiP (Fracțiunea citirilor în vârfuri) [5].

Până în prezent, cel puțin trei baze de date precum ENCODE, GTRD și ReMap își evaluează toate seturile de date ChIP-Seq cu ajutorul valorilor menționate. Cu toate acestea, se pare că o problemă precum controlul calității seturilor de date ChIP-Seq a fost abordată incomplet. În special, valorile de calitate existente nu permit controlul ratelor fals pozitive (FP) și fals negative (FN) în seturile de date generate de apelanți de vârf distincti. Scopul principal al studiului nostru a fost de a dezvolta două metrici noi de control al calității, False Positive Control Metrics (FPCM) și False Negative Control Metrics (FNCM), care permiteau controlul ratelor FP și FN ale apelanților de vârf. În acest scop, am folosit metode pentru estimarea dimensiunii populației pentru a estima numărul necunoscut de TFBR-uri autentice.

Practic, estimarea dimensiunii populației este intens utilizată în multe domenii ale cunoașterii, inclusiv științele ecologice [6], medicina [7] și științele sociale [8]. În general, o serie de modele de captare-recapturare tind să fie aplicate într-o varietate de aplicații, inclusiv estimarea dimensiunii populației. Cu toate acestea, aceste modele nu au fost aplicate pentru analiza seturilor de date ChIP-Seq. Cu siguranță, scopul principal al valorilor dezvoltate este de a servi drept ghid pentru selectarea seturilor de date mai fiabile, precum și pentru crearea versiunilor modificate ale acestora. De asemenea, am arătat că valorile propuse par să fie utile pentru alte aplicații, cum ar fi compararea apelurilor de vârf sau predicția TFBS-urilor în cadrul TFBR-urilor.

În general, identificarea corectă a TFBS este încă o mare provocare în bioinformatică. În prezent, abordarea matricii de greutate a poziției (PWM) este una dintre cele mai comune și utilizate pe scară largă pentru identificarea computațională a TFBS-urilor. În cadrul acestei abordări au fost dezvoltate o serie de metode de predicție a TFBS supuse. În special, MATCH [9], MEME [10] și modelul matricei de greutate HOCOMOCO [11] se numără printre acestea. Există mai multe depozite care acumulează matrici pentru reprezentarea TFBS-urilor. În special, HOCOMOCO [11], JASPAR [12] și UniPROBE [13].

În prezent, mai mult de 30 de algoritmi de apel de vârf au fost deja publicați pentru a obține seturi de date TFBR din date aliniate ChIP-Seq [14]. În prezent, au fost deja efectuate diverse analize comparative ale unor astfel de algoritmi. Una dintre primele analize comparative a fost publicată în 2009 [15]. Cu toate acestea, fără îndoială, cel mai bun algoritm pentru apeluri de vârf nu a fost găsit până acum. De regulă, aceste comparații au fost făcute de obicei pe un număr mic de seturi de date, utilizând în același timp diverse metrici și criterii de comparație. În consecință, unele analize comparative conduc la evaluări contradictorii. De exemplu, în trei analize au fost făcute concluzii contradictorii pentru algoritmi precum MACS, SICER și F-Seq [16, 17, 18]. Stadiul actual al tehnicii indică fără echivoc cererea ridicată de a dezvolta metrici și criterii de comparație mai sofisticate, precum și de a crea un set de date de testare unic și reprezentativ care poate fi utilizat în alte analize comparative.

Materiale și metode

Algoritm pentru determinarea FPCM și FNCM

Fie D să denotăm meta-setul D = 1, ..., Dk> format din k seturi de date ale TFBRs Di, i = 1, ..., k. Am luat în considerare următoarele două setări duale. În primul caz, D1,…, Dk sunt seturi de date de TFBR obținute prin aplicarea independentă a k apelanți de vârf distincti la același set de citiri ChIP-Seq aliniate la referința genomului. În special, am luat în considerare următorii k = 4 apelanți de vârf disponibili în GTRD: GEM [19], MACS [20], PICS [21] și SISSRs [22]. În al doilea caz, un meta-set conține seturi de date TFBR obținute prin aplicarea unui singur apel de vârf la seturile distincte de citiri ChIP-Seq atunci când același TF a fost studiat în diferite experimente ChIP-Seq. Am dezvoltat valorile noastre FPCM și FNCM pentru a evalua calitatea seturilor de date individuale Di, i = 1, ..., k, precum și întregul meta-set D.