ABSTRACT

Secvențierea cu randament ridicat a ADNc preparat din ARN, o abordare cunoscută sub numele de ARN-seq, devine din ce în ce mai utilizată ca metodă pentru analiza transcriptomului. În ciuda numeroaselor sale avantaje, adoptarea pe scară largă a tehnicii a fost împiedicată de lipsa unor instrumente open-source ușor de utilizat, integrate, pentru analiza datelor secvenței de nucleotide generate. Aici descriem Xpression, un instrument integrat pentru procesarea datelor procariote ARN-seq. Instrumentul este ușor de utilizat și este complet automatizat. Realizează toate sarcinile esențiale de procesare, inclusiv extracția secvenței de nucleotide, alinierea, cuantificarea, normalizarea și vizualizarea. Important, Xpression procesează date de secvență de nucleotide multiplexate și specifice catenelor. Extrage și decupează secvențe specifice din fișiere și cuantifică separat citirile de sens și antisens în rezultatele finale. Ieșirile din instrument pot fi, de asemenea, utilizate în mod convenabil în analiza din aval. În această lucrare, arătăm utilitatea Xpression pentru a prelucra date ARN-seq specifice catenelor pentru a identifica genele reglementate de CouR, un factor de transcripție care controlează degradarea p-cumaratului de către bacteria Rhodopseudomonas palustris .

degradare

INTRODUCERE

ARN-seq este o tehnică recent dezvoltată pentru analiza globală a transcrierilor ARNm care implică utilizarea tehnologiei de secvențiere cu randament ridicat (18). Are o serie de avantaje față de tehnologiile tradiționale bazate pe microarrays, inclusiv o sensibilitate îmbunătățită, o gamă dinamică crescută și un cost mai mic. Ca urmare, devine instrumentul preferat pentru studiile de expresie genică. În ciuda multor avantaje, adoptarea pe scară largă a ARN-seq este împiedicată de lipsa unor instrumente open-source ușor de utilizat, integrate, pentru procesarea datelor secvenței de nucleotide generate ca rezultat al tehnicii. Milioane de citiri secvențe brute sunt generate pentru fiecare experiment ARN-seq, ceea ce face imposibilă prelucrarea datelor de secvențiere fără instrumente bioinformatice.

Au fost dezvoltate o serie de instrumente pentru procesarea automată a datelor ARN-seq. Soluțiile comerciale, precum Avadis NGS și Illumina CASAVA, oferă caracteristici bogate, dar costurile lor sunt prohibitive pentru laboratoarele mici. Unelte necomerciale, cum ar fi ArrayExpressHTS (6) și rnaSeqMap (11), au fost recent lansate, dar niciunul dintre instrumentele existente nu este conceput special pentru prelucrarea datelor procariote ARN-seq. Datorită dimensiunilor lor mai mici ale genomului, datele procariote ARN-seq pot fi multiplexate prin adăugarea unui cod de bare la fiecare probă pentru a reduce costurile de secvențiere pe probă. În plus, metodele de construcție a bibliotecii specifice șirurilor pot fi utilizate pentru a păstra informațiile direcționale ale transcrierilor procariote (2, 8). Aceste metode produc secvențe într-o direcție nativă, precum și într-o direcție de complement invers în raport cu orientarea cadrului de citire deschis (2, 8). Sunt necesare abilități de programare pentru a personaliza instrumentele bioinformatice existente pentru prelucrarea acestor tipuri de date ARN-seq.

Aici descriem Xpression, un instrument integrat pe care l-am dezvoltat pentru a procesa date procariote ARN-seq generate cu tehnologia de secvențiere Illumina. Instrumentul acceptă comenzi simple de la utilizatori printr-o interfață grafică, este complet automatizat și finalizează toate sarcinile de procesare, începând de la extragerea secvenței până la generarea unui fișier de format de vizualizare general care poate fi deschis de software-ul de vizualizare precum Artemis (http: // www.sanger.ac.uk/resources/software/artemis/) sau Integrated Genomics Viewer (http://www.broadinstitute.org/igv/). Acesta va procesa date care nu sunt specifice fiecărei componente. Dar este, de asemenea, conceput pentru a analiza date multiplexate și specifice șirurilor. Extrage și decupează secvențe specifice din fișiere și cuantifică separat citirile de sens și antisens în rezultatele finale. Ieșirile din Xpression pot fi, de asemenea, utilizate în mod convenabil în analiza din aval. De exemplu, utilizatorii pot aplica un program software statistic, cum ar fi DESeq (1), rapoartelor de expresie genică pentru a identifica gene exprimate diferențial.

Un studiu genetic și biochimic recent al bacteriei fototrofice nonsulfur violet Rhodopseudomonas palustris a arătat că genele couAB, care codifică o enoil-CoA liasă/hidratază și o coenzimă A ligază, sunt necesare pentru degradarea monomerilor de lignină vegetală p-cumarat, ferulat, și cafeină (9). În același studiu, o proteină represoare a familiei MarR numită CouR a fost identificată ca legând coenzima p-cumaroil A (p-cumaroil-CoA) pentru a suprima expresia genei couAB. Rezultatele din experimentele cantitative de transcriptază inversă PCR (RT-PCR) au arătat că un mutant couR avea niveluri de expresie couAB de 30 până la 40 de ori mai mari decât cele de tip sălbatic. Aici am folosit Xpression pentru a procesa date ARN-seq specifice șirurilor, astfel încât să investigăm în continuare regulonul CouR. Acest lucru a dus la identificarea a 11 gene suplimentare care sunt probabil reglementate de CouR.

MATERIALE ȘI METODE

Tulpini bacteriene și condiții de creștere. Tulpina CGA009 de tip sălbatic R. palustris și un mutant de ștergere couR derivat din CGA009 (9) au fost crescute anaerob în lumină cu succinat (10 mM) ca sursă de carbon, așa cum s-a descris anterior (9, 10). Celulele din faza de creștere logaritmică mijlocie, unde exprimă gene de degradare a p-cumaratului la niveluri ridicate (15), au fost mai întâi răcite într-o baie cu gheață-apă și apoi recoltate prin centrifugare, iar peletele au fost înghețate în azot lichid și apoi stocat la -80 ° C.

Testele de schimbare a gelului de mobilitate electroforetică. CouR a fost purificat așa cum s-a descris anterior (9), iar testele de schimbare a gelului de mobilitate electroforetică au fost efectuate așa cum s-a descris anterior (9), cu excepția faptului că sondele specifice promotorului fiecărei gene au fost generate prin amplificare PCR cu ADN genomic R. palustris CGA009 ca șablon . Pentru fiecare sondă, întreaga regiune intergenică a fost amplificată.

Construcție de bibliotecă ADNc specifică șirului pentru ARN-seq. Celulele stocate anterior la -80 ° C au fost decongelate și întrerupte prin bătăi de mărgele, iar ARN-ul a fost apoi purificat din celule așa cum s-a descris anterior (8). O bibliotecă de ADNc specifică pentru catenă a fost preparată din ARN total printr-o metodă descrisă anterior numită ARN-seq (NSR) Not-so-Random (NSR) (2). Sinteza catenei întâi și a doua, construcția bibliotecii NSR ARN-seq și secvențierea ADN pe un sistem Illumina GA2 au fost efectuate așa cum s-a descris anterior (2, 8). Pentru aceasta, am specificat lungimi de citire a nucleotidelor de 36 de baze.

Instalare Xpression. Xpression este disponibil gratuit pentru descărcare de pe site-ul Harwood Laboratory (https://depts.washington.edu/cshlab/html/rnaseq.html). Datorită naturii software-ului dependent Biopython (4), SAMtools (13), Pysam și instrumentul de aliniere Burrows-Wheeler (BWA) (12), instalarea Xpression necesită un sistem de operare asemănător Unix configurat corespunzător. Site-ul oferă două alternative pentru a obține Xpression pe un computer desktop. Pentru cei care au un sistem de operare Linux sau Unix, cea mai bună opțiune este să folosiți scriptul automat furnizat, care va instala toate sursele de software necesare. Pentru cei cu un sistem de operare Windows sau Mac OS, am oferit un mediu grafic complet operațional, independent de sistem (Xpression VE), care poate rula Xpression. Singurul software de care are nevoie Xpression VE este un software gratuit de virtualizare numit VirtualBox (https://www.virtualbox.org/). Vă rugăm să consultați ghidul de utilizare a sistemului virtual Xpression disponibil pe site-ul web al Laboratorului Harwood pentru indicații de orientare și clic pentru instalarea Xpression VE pe un computer. Acest program poate fi instalat cu ușurință pe un computer desktop, laptop sau netbook.

Prezentarea interfeței grafice Xpression. (A) Setările pentru analiza datelor ARN-seq de tip sălbatic sunt prezentate ca exemplu. (B) Prezentarea ferestrei de opțiuni eșantion.