Alexey M. Kozlov

1 Laboratorul Exelixis, Grupul de calcul științific, Institutul de studii teoretice Heidelberg, Schloss-Wolfsbrunnenweg 35, 69118 Heidelberg, Germania

identificarea

Jiajie Zhang

1 Laboratorul Exelixis, Grupul de calcul științific, Institutul de studii teoretice Heidelberg, Schloss-Wolfsbrunnenweg 35, 69118 Heidelberg, Germania

Pelin Yilmaz

2 Grup de cercetare a genomicii microbiene și a bioinformaticii, Institutul Max Planck pentru microbiologie marină, 28359 Bremen, Germania

Frank Oliver Glöckner

2 Grup de cercetare a genomicii microbiene și a bioinformaticii, Institutul Max Planck pentru microbiologie marină, 28359 Bremen, Germania

3 Jacobs University Bremen gGmbH, Campus Ring 1, 28759 Bremen, Germania

Alexandros Stamatakis

1 Laboratorul Exelixis, Grupul de calcul științific, Institutul de studii teoretice Heidelberg, Schloss-Wolfsbrunnenweg 35, 69118 Heidelberg, Germania

4 Karlsruhe Institute of Technology, Institute for Theoretical Informatics, Postfach 6980, 76128 Karlsruhe, Germania

Date asociate

Abstract

INTRODUCERE

Taxonomia este știința clasificării și denumirii grupurilor de organisme, de obicei bazată pe caracteristici comune și/sau presupuse relații naturale. Taxonomiile sunt de o importanță fundamentală pentru cercetarea biologică, medicală și de mediu. În plus, ele joacă un rol cheie în domenii precum gestionarea speciilor invazive (1) sau facilitarea comerțului (2).

Deși primele încercări de clasificare a organismelor vii pot fi urmărite în antichitate (de exemplu, Aristotel), taxonomia modernă își are originea în opera lui Carl Linnaeus. Sistemul său unic de binom, care este încă folosit în prezent, a denumit specii standardizate în toate domeniile vieții, de la bacterii la animale. Cu toate acestea, metodele de clasificare taxonomică au asistat la o schimbare de paradigmă în ultimele decenii, determinată de progresul în biologia moleculară și bioinformatică. În loc să se bazeze exclusiv pe, de ex. asemănări morfologice sau fiziologice între organisme, taxonomiștii țin acum în mod obișnuit de asemenea relații filogenetice, după cum se deduce din datele moleculare (ADN sau secvențe de aminoacizi).

În timp ce filogeniile moleculare oferă un cadru mai robust pentru conceperea taxonomiilor, ele prezintă unele potențiale capcane. În primul rând, o filogenie reprezintă în esență o ipoteză evolutivă, care este supusă cantității și calității datelor secvenței, calității alinierii, precum și metodei și parametrilor de inferență. Prin urmare, taxonomiile care se bazează pe filogenii trebuie actualizate pe măsură ce noi secvențe și metode devin disponibile. Acest lucru nu este adesea cazul. Mai mult, problemele inerente datelor moleculare, cum ar fi secvențe himerice și/sau de calitate scăzută (3,4), pot afecta inferențele filogenetice. În cele din urmă, eroarea umană este întotdeauna prezentă; culturi greșite pentru organisme sau etichete greșite în bazele de date publice pot complica și mai mult analiza filogenetică și adnotarea taxonomică ulterioară.

Organismele microbiene, colectiv Bacteria, Archaea și Eukaryota microscopică, reprezintă cel mai divers grup de organisme vii. Din păcate, organismele microbiene sunt notoriu greu de caracterizat, deoarece mai puțin de 1% din microbi au fost cultivate cu succes până acum (5). Prin urmare, o descoperire majoră în domeniul taxonomiilor microbiene a fost utilizarea genei rRNA ribozomale (în special a subunității mici a acesteia, SSU, care se numește ARNr 16S pentru bacterii și Archaea și ARNr 18S pentru Eukaryota). Carl Woese a recunoscut că dovezile moleculare vor revoluționa domeniul filogeniei și taxonomiei bacteriene, deoarece abordarea ar putea înlocui abordările anatomice și fiziologice comparative destul de neinformative (6) utilizate în acel moment. Metodele moleculare au permis cercetătorilor să elucideze relațiile evolutive dintre descendențele microbiene îndepărtate, ducând la o clasificare unificată a vieții în trei domenii („sistemul cu trei domenii”).

Norman R. Pace (7) a extins în continuare activitatea lui Woese prin dezvoltarea PCR de mediu, permițând amplificarea ARNr direct din probe de mediu și evaluări ale diversității microbiene la scară moleculară (8,9). Mai mult, studii recente au corelat modificările compoziției microbiene intestinale cu condițiile umane, cum ar fi obezitatea, diabetul și bolile inflamatorii intestinale (10-12). Condiția prealabilă pentru realizarea unor astfel de studii de mediu este disponibilitatea unei clasificări taxonomice fiabile a secvențelor de mediu. La rândul său, acest lucru necesită o taxonomie stabilă și bine curatată pentru secvențele corespunzătoare de baze de date de referință.

Pentru unele grupuri de organisme, a fost pusă în aplicare o abordare a curăției bazată pe comunitate pentru a avea succes. În special, UNITE oferă o platformă web pentru adnotarea terță parte a secvențelor fungice ITS (20). În cadrul unui astfel de sistem, partajarea muncii și asistența îmbunătățită prin intermediul unui software adecvat permit accelerarea substanțială a curării (21). Cu toate acestea, această abordare este condiționată de dorința comunității respective de a investi timp și efort în pregătirea taxonomică. Deși schimbarea etichetelor taxonomice în sine este destul de ușoară în sisteme precum UNITE, cea mai consumatoare de timp rămâne în continuare: identificarea secvențelor problematice, precum și venirea cu noile etichete corectate pentru acestea. Prin urmare, credem că instrumentele care oferă recomandări automate pentru aceste două sarcini fundamentale vor fi benefice atât pentru curățarea online, cât și pentru cea offline.

Aici, propunem o metodă nouă de identificare a etichetelor greșite supuse în taxonomii. Motivat de abordarea actuală a taxonomiei, conștientă de filogenie, considerăm incongruența topologică dintre arborele taxonomic și filogentic ca o indicație că unele dintre secvențe ar putea fi etichetate greșit. Prin urmare, folosim algoritmul de plasare evolutivă (EPA) (22) pentru a identifica secvențe ale căror plasamente taxonomice și filogenetice sunt inconsistente.