Abstract

IR64 este un soi de orez cu randament ridicat care a fost cultivat pe scară largă în întreaga lume. IR64 a fost înlocuit de soiuri moderne în majoritatea zonelor în creștere. Având în vedere că soiurile moderne sunt în mare parte descendenți sau rude ale IR64, analiza genetică a IR64 este valoroasă pentru genomica funcțională a orezului. Cu toate acestea, secvențele genomice la nivel cromozomial ale IR64 nu au fost disponibile anterior. Aici, am secvențiat genomul IR64 folosind citiri sintetice lungi obținute prin secvențierea cu citire legată și citiri ultra-lungi obținute prin secvențierea nanoporilor. Am integrat aceste date și am generat noul ansamblu al genomului IR64 de 367 Mb, echivalent cu 99% din dimensiunea estimată. Continuitatea ansamblului genomului IR64 a fost îmbunătățită în comparație cu cea a unui ansamblu de genom IR64 disponibil public generat doar de citiri scurte. Am adnotat 41.458 gene codificatoare de proteine, inclusiv 657 gene specifice IR64, care lipsesc în alte ansambluri de genom de orez de înaltă calitate IRGSP-1.0 din cultivarul japonic Nipponbare sau R498 din cultivarul indica Shuhui498. Ansamblul genomului IR64 va servi ca resursă genomică pentru genomica funcțională a orezului, precum și pentru reproducerea genomică și/sau moleculară.

asamblarea

IR64 este un soi iconic de orez indica (Oryza sativa L.) care a fost dezvoltat de Institutul Internațional de Cercetare a Orezului din Filipine în 1985 (Mackill și Khush 2018). IR64 este un descendent al „orezului minune” IR8, varietatea inițială a Revoluției Verzi. IR8 a crescut dramatic randamentul de cereale datorită genei semi-pitic sd1. În plus față de randamentul ridicat, IR64 are o calitate ridicată a alimentației și rezistență la boli, prin urmare IR64 a fost unul dintre cele mai populare soiuri de orez cultivate în sud-estul și Asia de Sud de la sfârșitul anilor 1980 până la începutul anilor 2000. Soiurile moderne cu randament mai mare și rezistență îmbunătățită la boli au înlocuit IR64 în multe țări în ultimele două decenii. Important, aceste soiuri moderne sunt în mare parte descendenți sau rude ale IR64 (Mackill și Khush 2018). În plus, liniile aproape izogene care conferă trăsături noi și îmbunătățite, cum ar fi toleranța la secetă și rezistența la scufundare, au fost dezvoltate în fondul genetic IR64. Prin urmare, analiza genetică a IR64 rămâne extrem de importantă pentru îmbunătățirea ulterioară a IR64 sau a descendenților săi.

Secvența secvenței genomice a soiului japonez japonic Nipponbare a fost analizată prin secvențierea BAC-by-BAC utilizând tehnologia de secvențiere Sanger (Goff și colab. 2002, IRGSP 2005). Progresele în tehnologiile de secvențiere cu randament ridicat au permis reechilibrarea întregului genom a mii de soiuri de orez japonic, indica și aus, precum și specii Oryza mai înrudite. Resecvențierea bazată pe referințe este o metodă puternică de detectare a micilor polimorfisme utilizate pentru analiza cantitativă a loci ale trăsăturilor și studiul asocierii la nivelul întregului genom (Huang și colab. 2010, Wang și colab. 2018). Cu toate acestea, resechențierea nu se aplică pentru variații structurale mari sau regiuni foarte diversificate. A fost raportat proiectul de asamblare a genomului de IR64, generat de citiri scurte, dar ansamblul este foarte fragmentat și constă din mii de schele (Schatz și colab. 2014). În 2014, au fost publicate secvențe genomice la nivel cromozomial ale soiului indica Shuhui498 (R498) (Du et al. 2017). Acest genom a fost determinat prin asamblarea hibridă utilizând platformele PacBio și Illumina. Calitatea asamblării a fost comparabilă cu secvențele BAC-by-BAC ale genomului Nipponbare.

Tehnologiile sintetice de citire lungă permit ca citirile ultra-lungi virtuale să fie derivate din citirile scurte generate de secvențieri cu randament ridicat, iar secvențierele cu o singură moleculă generează citiri ultra-lungi. Ansamblurile bazate pe aceste citiri lungi au o contiguitate mai mare decât cele bazate numai pe citiri scurte. În studiul de față, am secvențiat genomul IR64 folosind două platforme: 10x Genomics Chromium linked-reads și single-molecule Oxford Nanopore MinION. Am integrat date de secvențiere cu citire legată și date de secvențiere nanopore pentru a construi ansamblul genomului IR64 (Figura 1). Am folosit o hartă de legătură genetică disponibilă public, construită din linii consangvinizate recombinante (RIL) derivate din IR64 și Azucena pentru a construi supersafolduri la nivel cromozomial. Calitatea ansamblului genomului IR64 este comparabilă cu cea a genomului actual de referință al orezului japonic Nipponbare și indica Shuhui498, bazat pe integralitatea și acuratețea secvențelor genomului și analiza comparativă a genelor. Colectiv, oferim o nouă resursă a genomului pentru comunitatea de orez și o opțiune suplimentară pentru abordarea asamblării genomului de novo, rentabilă.

Ilustrație schematică a unui nou ansamblu al genomului IR64. Software-ul utilizat pentru analiză este indicat cu cursiv.

Materiale și metode

Extracția materialului vegetal și a ADN-ului

Semințele IR64 (International Rice Genebank Collection # 66970, selfed de cel puțin 10 ori la Institutul Național de Științe Agrobiologice, Japonia) au fost sterilizate și incubate pe mediu Murashige și Skoog suplimentat cu zaharoză 3% și agar 1% la pH 5,8 o cutie de plante la 28 ° timp de 8 zile. Frunzele răsadurilor vechi de 8 zile au fost înghețate în azot lichid și măcinate până la o pulbere fină cu mortar și pistil. ADN-ul cu greutate moleculară mare a fost extras cu tampon G2 (Qiagen) suplimentat cu proteinază K și RNază A la 60 ° peste noapte cu agitare ușoară. După centrifugare la 2000 × g timp de 30 min, supernatantul a fost încărcat într-un tip genomic 100 (Qiagen) pre-echilibrat cu Buffer QBT (Qiagen) și spălat cu Buffer QC (Qiagen) de două ori. ADN-ul a fost eluat cu tampon QF (Qiagen), precipitat cu alcool izopropilic, spălat cu etanol 70% și dizolvat în tampon EB (Qiagen). Concentrația de ADN a fost măsurată cu Qubit dsDNA High Sensitivity Assay Kit (Invitrogen).

Secvențe publice ale genomului orezului și date de adnotare

Secvențe genomice și date de adnotare pentru O. sativa subsp. japonica Nipponbare (IRGSP-1.0) și O. sativa subsp. indica Shuhui498 (R498) au fost descărcate de pe RAP-DB (https://rapdb.dna.affrc.go.jp/) (Kawahara și colab. 2013; Sakai și colab. 2013) și MBKBASE (http: // www. mbkbase.org/R498/) (Du et al. 2017), respectiv baze de date. De asemenea, am descărcat secvențe de genom IR64 disponibile public din Laboratorul Schatz (http://schatzlab.cshl.edu/data/rice/) (Schatz și colab. 2014). Având în vedere că nicio secvență de codificare (CDS) și secvențe de proteine ​​nu erau accesibile pe site, am extras secvențe CDS din secvența genomului folosind un fișier GFF și tradus în secvențe de proteine. Pentru detectarea elementelor repetitive, am folosit mipsREdat_9.3p_Poaceae_TEs.fasta descărcat din baza de date PGSB (http://pgsb.helmholtz-muenchen.de/plant/) (Spannagl et al. 2017).

Secvențierea cu citire legată

Biblioteca cu citire legată a fost pregătită cu Chromium Genome Reagent Kit (10x Genomics) și secvențiată pe o bandă a unei platforme Illumina HiSeq X la Macrogen Japonia. Citirile legate au fost asamblate folosind asamblorul Supernova v.2.0.1 cu parametrii impliciți, cu excepția „–maxreads = 142000000” pentru a atinge 56 × acoperire brută, în conformitate cu instrucțiunile producătorului. Proiectul inițial al ansamblului genomului IR64_Chromium a fost prezentat în format pseudohaplotip. Închiderea golurilor a fost efectuată cu GAPCLOSER v.1.12 pentru schele suplimentare (Luo și colab. 2012). Secvențele rezultate au fost utilizate pentru schele ulterioare.

Secvențierea nanoporei

O bibliotecă de ADN pentru secvențierea MinION a fost pregătită pe baza protocolului pentru experimentul de control rapid Lambda folosind kitul de secvențiere rapidă (Oxford Nanopore Technologies). Biblioteca a fost încărcată pe MinION R9.5 SpotON Flow Cells (Oxford Nanopore Technologies). Apelarea de bază a fost efectuată de MinKnow. Asamblarea genomului a fost efectuată utilizând Canu v1.6 cu parametrul „-nanpore-raw”. Contigurile asamblate au fost corectate folosind citiri scurte obținute din biblioteca de citire legată folosind platforma HiSeq X. Citirile de capăt pereche au fost mapate la secvențele asamblate prin BWA-0.7.15 cu parametrii „mem -M -T 30” (Li și Durbin 2009). Prelucrarea a fost efectuată folosind samtools-1.4 cu pașii „view -q 30 -F 0x100” și „view -f 0x2” (Li 2011). În cele din urmă, polimorfismele detectate de Genom Analysis Toolkit HaplotypeCaller cu opțiunile „-out_mode EMIT_VARIANTS_ONLY - variant_index_type LINEAR - variant_index_parameter 128000 - filter_reads_with_N_cigar” (McKenna și colab. 2010) au fost încorporate în secvențele asamblate „Li”.

Construcția IR64 v. 1.0 asamblare

Schelele din 10x Genomics Chromium și contigs de pe platformele Nanopore MinION au fost integrate de Quickmerge (versiunea 3) cu setările implicite (Chakraborty și colab. 2016). Apoi, am cartografiat datele GBS pentru populația IR64 × Azucena RIL descărcate din baza de date Rice Diversity (http://www.ricediversity.org/data/) (Spindel și colab. 2013). Un total de 30.984 markeri de polimorfism unic-nucleotidic (SNP) au fost mapați la secvențele de consens IR64 de către BLASTN cu pragurile ≥90% de identitate și acoperire (Camacho și colab. 2009). Pe baza distanței genetice, schelele au fost aliniate de-a lungul poziției cromozomiale. Având în vedere că nu toți markerii au fost aliniați în mod consecvent cu distanța genetică, am eliminat markerii SNP orfani și markerii cu poziții inconsistente în intervalul 1000 pb. Apoi, 599 ansambluri posibile eronate au fost curate manual. Am împărțit ansamblul eronat la golurile dintre contigs și le-am mutat la locurile corecte, conform hărții genetice. În cele din urmă, secvențele curate au fost corectate folosind lecturi scurte obținute din biblioteca de citiri legate generate cu platforma HiSeq X așa cum este descris mai sus. Dimensiunea genomului IR64 a fost estimată din distribuția frecvenței k-mer (Zhang și colab. 2012) utilizând JellyFish-2.2.10 (Marcias și Kingsford 2011) cu o dimensiune k-mer de 25.

Adnotarea genomului

Am adnotat modele genetice folosind MAKER 2.31.10, care integrează un model genetic bazat pe secvențierea ARN (ARN-seq), omologia proteinelor și predicția genei ab initio. Pentru a construi modele genetice bazate pe ARN-seq, am folosit citirile ARN-seq IR64 disponibile public (Xiang și colab. 2017). După adaptarea și tunderea calității folosind trimmomatic-0.30 (ILLUMINACLIP: TruSeq3-SE.fa: 2: 30: 10 LEADING: 15 TRAILING: 15 SLIDINGWINDOW: 4: 15 MINLEN: 32) (Bolger et al. 2014), citirile au fost mapate la ansamblul genomului IR64 v.1.0 folosind HISAT2 (versiunea 2.0.5) (–min-intronlen 20 - max-intronlen 10000 - downstream-transcriptome-assembly - rna-strandness RF) (Kim și colab. 2015) și structurile genetice au fost prezis de StringTie (versiunea 1.3.3) cu parametrii impliciti (Pertea et al. 2015). În cele din urmă, toate seturile de modele genetice au fost integrate într-un singur set de modele genetice bazate pe ARN-seq. Pentru cartografierea proteinelor, am folosit modelele genelor IRGSP-1.0 și R498 (Du și colab. 2017; Kawahara și colab. 2013). Pentru predicția genei ab initio, am folosit SNAP (versiunea 2006-07-28) (Korf 2004) și AUGUSTUS (versiunea 3.3.1) (Stanke și Waack 2003). Pentru adnotarea funcțională, am folosit InterProScan (versiunea 5.2.4-63.0) (-f XML) (Jones și colab. 2014). Informațiile din domeniu și datele despre ontologia genică (GO) au fost extrase din rezultate. Regiunile repetitive au fost detectate de REPEATMASKER (v.4.0.7) folosind mipsREdat_9.3p_Poaceae_TEs.fasta și setările implicite.

Validarea secvenței IR64 v.1.0

Compararea transcrierii

Am efectuat o căutare omologică a proteinelor IR64 împotriva genelor reprezentative IRGSP, a genelor IRGSP prezise și a genelor R498 utilizând BLASTP cu un prag de valoare E -10 (Camacho și colab. 2009). Genele IR64 care nu aveau omologii cu alte gene au fost mapate la secvențele genomului IR64 (Os-IR64-Draft-CSHL-1.0), IRGSP și R498 utilizând GMAP (2017-03-17) (-f gff3_gene) cu ≥95% identitate și acoperire ≥90%. Dovezile de expresie ale proteinelor IR64 au fost evaluate folosind datele ARN-seq. Am cartografiat 16 mostre de ARN-seq single-end, fie din rădăcină, fie din lăstar, folosind BWA-0.7.15 cu parametrii „mem -M -T 30”. Procesarea și numărul de citiri pentru fiecare site au fost efectuate folosind samtools-1.4 cu parametrii „view -q 30 -F 0x100” și „mpileup -u -v”. A fost calculată acoperirea prin ARN-seq pentru fiecare transcriere.

Disponibilitatea datelor

Seturile de date generate în timpul studiului curent sunt disponibile în Arhiva de citire a secvenței sub numărul de acces PRJD88810. Ansamblul genomului IR64 v.1.0 este disponibil sub numerele de accesare ale ansamblului DDBJ BLLQ01000001-BLLQ01000012. Toate datele genomice analizate în acest studiu pot fi descărcate și vizualizate în baza de date ROOTomics (https://rootomics.dna.affrc.go.jp/en/research/IR64), găzduind JBrowse pentru vizualizarea datelor de adnotare a genomului și a serverului BLAST. Fișierele suplimentare de mai jos sunt disponibile la FigShare. Tabelul S1. Date de adnotare a posibilelor gene lipsă din genomul IR64. Figura S1. Alinierea genomului între genomul IRGSP-1.0 și schelele IR64. Punctele roșii și albastre reprezintă aliniamente înainte și invers. Figura S2. Aliniere cromozomiale între R498 și IR64 v.1.0. Figura S3. Alinieri cromozomiale între IRGSP-1.0 și IR64 v.1.0. Figura S4. Alinieri cromozomiale ale cromozomului 6 de la 13 Mbp la 19 Mbp. Figura S5. Distribuția cromozomială a genelor cartografiate pe secvențe nerancurate IR64 v.1.0. Figura S6. Fracțiunea regiunilor genice lipsă în IR64 acoperite de citiri cu capăt asociat obținute din secvențierea legată de citire a genomului IR64. Figura S7. Distribuția ontologiilor genetice. Material suplimentar disponibil la figshare: https://doi.org/10.25387/g3.10058657.

Rezultate si discutii

asamblarea de novo a secvenței genomului IR64

Am secvențiat genomul IR64 folosind secvențierea cu citire legată și am obținut 910 milioane de citiri brute, echivalent cu 138 Gb (~ 368 ×) (Tabelul 1). Proiectul ansamblului genomului bazat pe 142 de milioane de citiri legate (~ 56 ×), IR64-crom, a constat din 10.153 de schele cu o lungime totală a secvenței de 384 Mb. Lungimea maximă și N50 ale schelelor IR64-crom au fost de 6,9 ​​și respectiv 1,2 Mb. De asemenea, am secvențiat genomul IR64 folosind secvențierea nanopore și am obținut 1,4 milioane de citiri brute cu o lungime medie de 1,45 kb, echivalentă cu 9,3 Gb (~ 24 ×) (Tabelul 1). Proiectul ansamblului genomului bazat pe secvențierea nanoporei, IR64-MinION, a constat din 3.258 contigs cu o lungime totală a secvenței de 323 Mb. Lungimea maximă și N50 ale contigurilor IR64-MinION au fost de 1,4 Mb, respectiv 224 kb. Distribuția lungimilor secvenței asamblate a diferit între IR64-Crom și IR64-MinION (Figura 2). În IR64-crom, peste 80% din schele au fost mai scurte de 10 kb. Cu toate acestea, 86% din secvențele genomului au fost acoperite de 4% din schele, care au fost mai lungi de 100 kb. În schimb, fracțiile de contiguri scurte (Vizualizați acest tabel:

  • Vizualizați în linie
  • Vizualizați fereastra pop-up