Editor asociat: Alex Bateman

bioinformatica

Aleksey V. Zimin, Douglas R. Smith, Granger Sutton, James A. Yorke, Asamblarea reconcilierii, Bioinformatica, Volumul 24, Numărul 1, 1 ianuarie 2008, paginile 42–45, https://doi.org/10.1093/bioinformatics/ btm542

Abstract

Motivație: Multe genomi sunt secvențiate printr-o colaborare a mai multor centre și apoi fiecare centru produce un ansamblu folosind propriul software de asamblare. Colaboratorii aleg apoi proiectul de adunare pe care îl consideră cel mai bun, iar informațiile conținute în celelalte adunări nu sunt de obicei utilizate.

Metode: Am dezvoltat o tehnică pe care o numim reconciliere a ansamblului, care poate îmbina proiectele de ansambluri ale genomului. Este nevoie de un ansamblu de proiectare, detectează erori aparente și, atunci când este posibil, repară zonele cu probleme folosind piese din ansambluri de proiectare alternative. De asemenea, închide golurile în locurile în care unul dintre ansamblurile alternative a întins corect golul.

Rezultate: Folosind tehnica de reconciliere a asamblării, am produs ansambluri reconciliate de șase specii de Drosophila în colaborare cu Agencourt Bioscience și Institutul J. Craig Venter. Aceste ansambluri sunt acum ansamblurile oficiale (CAF1) utilizate pentru analiză. De asemenea, am produs un ansamblu reconciliat al genomului Rhesus Macaque, iar acest ansamblu este disponibil de pe site-ul nostru http://www.genome.umd.edu.

Disponibilitate: Software-ul de reconciliere este disponibil pentru descărcare de la http://www.genome.umd.edu/software.htm

1. INTRODUCERE

Proiectele de ansambluri ale genomului au asamblări greșite și lacune. Multe genomi (de exemplu șoareci, mai multe specii de Drosophila și Rhesus Macaque) sunt secvențiate de mai mulți centri și apoi asamblate folosind două sau mai multe programe de asamblare. În cele din urmă, colaboratorii aleg proiectul de adunare pe care îl consideră cel mai bun. Majoritatea programelor majore de asamblare precum Arachne (Batzoglou și colab., 2002; Jaffe și colab., 2003; Vinson și colab., 2005), PCAP (Huang și colab., 2003), Phusion (Mullikin și Ning, 2003), JAZZ și Celera Assembler (Myers și colab., 2000) sunt similare prin faptul că utilizează variațiile tradiționale de suprapunere, aspect, abordare consens. Detaliile tehnicilor utilizate de diferite programe de asamblare diferă și frecvent un program de asamblare este capabil să asambleze corect o regiune dificilă a genomului, în timp ce celelalte nu pot.

Principalul tip de asamblare greșită în contigurile găsite în genomele proiectului este omiterea uneia sau mai multor copii ale secvenței repetitive și, mai general, pierderea bucăților unice de secvență care sunt înconjurate de copii ale unei repetări împreună cu una dintre repetă copii. Ocazional, ansamblorii greșesc prin includerea unei secvențe suplimentare într-un ansamblu, dar astfel de erori de „expansiune” sunt mai puțin frecvente.

Identificarea unei compresii prin alinierea ansamblurilor de proiectare A și B.