Mărimea „genomurilor unice” reprezentate de k-meri de lungimi diferite pentru opt cromozomi individuali de E. coli și gradul de intersecție a acestora exemplificat de trei genomi indicați. (a) Liniile solide arată numărul normalizat la 1 Mbp în fiecare genom de k-meri (N), găsit în cromozomii E. coli (tulpini: K-12 MG1655, ETEC H10407, O26: H11 pp. 11368, ABU 83972, APEC O78, pp. 042, O157: H7 pp. EC4115 și O7: K1 pp. CE10) care sunt absente în secvențele de nucleotide din baza de date de referință. Liniile întrerupte arată curbele de incrementare reprezentate pentru ΔN/Δ k. (b) Diagrama Venn care ilustrează intersecția dintre seturile de 18-mer identificați în genomul a două bacterii din grupa A (E. coli K-12 MG1655 și ETEC H10407) și E. coli O26: H11 p. 11368, aparținând grupei B1. Numărul de 18-meri unici în fiecare genom, mărimea setului lor comun și intersecția dintre cele două seturi ale grupului A sunt indicate fără normalizare. Diagrama a fost creată folosind un Venn Diagram Maker [54].

free

Arborele filogenetic pentru 124 de tulpini de E. coli deduse din secvențe aliniate concatenate de 27 de gene din programul IQ-TREE [70] folosind metoda maximă probabilitate. Modelul optim pentru substituția nucleotidică a fost GTR + G + I (modelul general reversibil în timp presupunând o porțiune fixă ​​a siturilor invariante și diferențele de rată evolutivă descrise de distribuția gamma). Nivelul de suport al ramurilor prezentat în procente a fost estimat pe baza a 2000 de iterații cu aproximare de bootstrap ultrarapidă [71]. Bara de scară corespunde numărului de substituții de nucleotide pe sit. Codul de culoare corespunde celor opt filogrupuri indicate. Numele tuturor tulpinilor sunt indicate lângă ramurile corespunzătoare și separate cu virgulă pentru secvențe identice din grupul B1.

Arborele filogenetic construit prin metoda de îmbinare vecină în programul MEGA X [73]. Arborele a fost dedus din matricea de distanță în perechi pentru 124 de seturi de 18-meri unice pentru genurile Escherichia/Shigella și a fost identic cu arborele construit pe baza a 22-meri. Setul de markeri 18-mers din genomul Escherichia albertii KF1 a fost utilizat ca probă de grup. Bara de scală arată distanța Sorensen ca procent. Același cod de culoare ca în Figura 2 denotă cladele a opt filogrupuri.

Taxonomia dependentă de filogrup a metagenomilor de la patru indivizi sănătoși (numerele 1-4) și patru pacienți cu boala Crohn (numerele 5-8). Panoul (a) arată distribuția mărimii pentru seturile cumulative de 22-mer unici (simboluri colorate) și metagenomi selectați numerotați în același mod ca în panoul „b” (simboluri deschise). Panoul (b) demonstrează numărul de citiri de secvențe atribuite unui anumit grup, normalizat de mărimea seturilor cumulative de 22-mer (Tabelul 1) și numărul de citiri din metagenomi. Valorile numerice în ambele cazuri sunt prezentate ca logaritmi naturali ai acestora.

Abstract

1. Introducere

85%) [42] a fost mai mare decât la filotiparea clasică (65-83% [5]). Această acuratețe a taxonomiei bazate pe k -mer a făcut posibilă distincția tulpinilor Bacillus cereus și Bacillus anthracis care au o identitate de 99% [43]. Aceasta înseamnă că abordările bazate pe k -mer care operează cu un număr mare de secvențe de markeri pot fi utile nu numai pentru analize taxonomice, ci și pentru analize filogenetice. Acest lucru ar avea o importanță deosebită pentru taxonomia intraspecie, unde tulpinile patogene sunt adesea foarte greu de distins de cele nepatogene. Prin urmare, în acest studiu, am actualizat software-ul UniSeq dezvoltat anterior [44] pentru o căutare mai precisă a k-meri unici în genomii bacterieni și le-am aplicat pentru prima dată pentru a distinge între opt filogrupuri de Escherichia coli, clasificate de Clermont și colab. . [45,46].