Abstract

Secvențierea ARN utilizând cele mai recente instrumente de secvențiere cu o singură moleculă produce citiri care au lungimea a mii de nucleotide. Capacitatea de a asambla aceste lecturi lungi poate îmbunătăți foarte mult sensibilitatea analizelor citite lung. Aici vă prezentăm StringTie2, un ansamblor de transcriptom ghidat de referință care funcționează atât cu citiri scurte cât și lungi. StringTie2 include noi metode de gestionare a ratei de eroare ridicate a citirilor lungi și oferă posibilitatea de a lucra cu supercitiri de lungime completă asamblate din citiri scurte, ceea ce îmbunătățește în continuare calitatea ansamblurilor de citire scurtă. StringTie2 este mai precis și mai rapid și folosește mai puțină memorie decât toate instrumentele de analiză comparabile cu citire scurtă și lungă.

transcriptom

fundal

Măsurarea abundențelor de transcrieri într-un set de date ARN-secvențiere (ARN-seq) este un mod puternic de a înțelege funcționarea unei celule. Pur și simplu alinierea citirilor la un genom de referință poate oferi estimări aproximative ale expresiei medii a genelor și indiciu la utilizarea diferențiată a siturilor de îmbinare [1], dar pentru a crea o imagine exactă a activității genelor, trebuie să asamblați colecții de citiri în transcrieri. Împletirea alternativă este foarte frecventă la eucariote, cu aproximativ 90% din genele umane care codifică proteinele multi-exoni și 30% din genele ARN necARN (ncRNA) având izoforme multiple [2, 3]. În timp ce numărul de gene adnotate care codifică proteinele umane a rămas mai mult sau mai puțin constant în ultimul deceniu, numărul de gene ncRNA și izoforme care codifică proteinele a continuat să crească [4].

Secvențierele de a doua generație, precum cele de la Illumina, pot produce sute de milioane de scurte (

StringTie și alți ansamblori de transcriptomi estimează abundența transcrierii pe baza numărului de citiri aliniate atribuite fiecărei transcrieri. Mai recent, metode alternative precum Sailfish [15], Somon [16] și Kallisto [17] au demonstrat că se pot estima abundențe prin atribuirea citirilor transcrierilor cunoscute pe baza exactă k-potrivire simplă, care produce câștiguri dramatice de viteză prin renunțarea la cerința pentru alinierea precisă a citirii la nivel de bază. Cu toate acestea, aceste metode fără aliniere nu sunt capabile să detecteze gene noi sau izoforme și prezintă performanțe mai slabe în cuantificarea ARN-urilor cu abundență scăzută și mici comparativ cu conductele bazate pe aliniament [18].

Aici vă prezentăm StringTie2, o nouă versiune majoră a ansamblului de transcrieri StringTie, care este capabil să asambleze atât lecturi scurte cât și lungi, precum și super-citiri de lungime completă. Rezultatele noastre pentru 33 de seturi de date Illumina RNA-seq demonstrează că StringTie2 este mai precis decât Scallop, următorul ansamblu de transcriptom cu cele mai bune performanțe dintre cele disponibile în prezent. Utilizarea super-citirilor îmbunătățește în mod constant atât sensibilitatea, cât și precizia ansamblurilor StringTie2. Atunci când este aplicat citirilor lungi, StringTie2 asamblează citirile în mod substanțial mai precis, mai rapid și folosind mai puțină memorie decât FLAIR, instrumentul cel mai performant pentru analiza citirilor lungi. Spre deosebire de FLAIR, StringTie2 poate identifica, de asemenea, transcrieri noi din datele citite lungi, chiar și atunci când nu este furnizată nicio adnotare de referință.

Rezultate

Ansamblul transcriptom al citirilor scurte de ARN-seq

Am folosit mai întâi date umane simulate pentru a compara sensibilitatea și precizia StringTie2, cu și fără supercitiri, cu cea a Scallop (Fig. 1), unul dintre cei mai recenți asamblori de transcriptomi pentru date scurte de ARN-seq, care a fost prezentat pe unele date pentru a obține o îmbunătățire a preciziei asamblării față de StringTie1 [11].