Afiliere Cybergenetics, Pittsburgh, Pennsylvania, Statele Unite ale Americii

lacună

Afiliere Genetica, Cincinnati, Ohio, Statele Unite ale Americii

Cifre

Abstract

Dovezile ADN criminalistice conțin adesea amestecuri de contribuabili multipli sau sunt prezente în cantități mici de șablon. Semnalele de date rezultate pot părea relativ neinformative atunci când sunt interpretate folosind metode calitative bazate pe incluziune. Cu toate acestea, aceleași date pot produce informații mai mari de identificare atunci când sunt interpretate de computer folosind metode de modelare a datelor cantitative. Acest studiu aplică atât metode de interpretare calitative cât și cantitative pentru un amestec de ADN bine caracterizat și un set de date de diluare și compară informațiile de potrivire deduse. Rezultatele arată că interpretarea calitativă pierde puterea de identificare la cantități mici de ADN vinovați (sub 100 pg), dar că metodele cantitative produc informații utile în intervalul de 10 pg. Astfel, există un decalaj de informații de zece ori care separă abordările de interpretare a amestecului de ADN calitativ și cantitativ. Cu cantități mici de ADN vinovat (10 pg până la 100 pg), interpretarea cantitativă pe computer oferă o sensibilitate mai mare la potrivire.

Citare: Perlin MW, Sinelnikov A (2009) An Information Gap in DNA Evidence Interpretation. PLOS ONE 4 (12): e8327. https://doi.org/10.1371/journal.pone.0008327

Editor: Fabio Rapallo, Universitatea din Piemontul de Est, Italia

Primit: 20 august 2009; Admis: 17 noiembrie 2009; Publicat: 16 decembrie 2009

Finanțarea: Această cercetare a fost susținută parțial sub numărul de atribuire 2001-IJ-CX-K003 de la Oficiul pentru Programe de Justiție, Institutul Național de Justiție, Departamentul Justiției (www.ojp.usdoj.gov/nij/). Cybergenetics (www.cybgen.com) a oferit sprijin salarial doctorilor. Perlin și Sinelnikov. Finanțatorii nu au avut niciun rol în proiectarea studiului, colectarea și analiza datelor, decizia de publicare sau pregătirea manuscrisului.

Interese concurente: Dr. Mark Perlin este acționar, ofițer și angajat al Cybergenetics din Pittsburgh, PA, o companie care dezvoltă tehnologie genetică pentru interpretarea computerizată a dovezilor ADN. Cybergenetics produce sistemul TrueAllele® Casework, care este una dintre metodele descrise în lucrare. Dr. Alex Sinelnikov este angajat al Genetica din Cincinnati, OH, o companie care efectuează teste genetice. Dr. Sinelnikov era angajat al Cybergenetics la momentul în care lucra la acest studiu.

Introducere

Identificarea ADN este un instrument criminalistic puternic pentru rezolvarea și prevenirea criminalității [1]. Cu toate acestea, dovezile ADN sunt colectate de pe teren în condiții reale și pot produce date mai puțin curate decât un specimen de referință obținut de la o persoană într-un cadru controlat. Două surse comune de ambiguitate a datelor în dovezile biologice sunt (a) amestecuri de ADN de la mai mulți contributori și (b) ADN șablon scăzut (ADN-LT) care este sub 100 pg în proba de probă.

Amestecurile de ADN pot fi dovezi foarte probatorii într-o infracțiune de agresiune sexuală (de exemplu, un viol necunoscut), în care materialul seminal al unui vinovat se amestecă cu celulele epiteliale ale victimei [2]. Amestecurile de vinovat și victimă în alte infracțiuni violente (de exemplu, omucidere) pot ajuta la stabilirea faptului că un suspect a fost implicat într-un eveniment criminal. Dovada ADN-ului privind infracțiunile asupra proprietății [3] este adesea mixtă, șablon redus sau ambele. O cantitate redusă de șablon ADN (în orice tip de infracțiune) produce un semnal mai puțin amplificat, creând date ambigue a căror interpretare criminalistică poate produce mai puține informații de identificare [4].

Aceste provocări ale ADN-ului au un impact major asupra practicii de laborator a criminalității. Eșantioanele dificile pot consuma un timp exagerat al examinatorului și pot produce informații suboptime, generând restanțe de ADN și rezultate neconcludente [5]. Totuși, astfel de dovezi provocatoare pot fi extrem de importante în protejarea publicului de infractorii periculoși. Un laborator a estimat că examinarea la timp a ADN a tuturor infracțiunilor asupra proprietății și a agresiunilor sexuale ar preveni 100.000 de violuri necunoscute în Statele Unite [6]. Acest lucru se datorează parțial faptului că spargerea și violul sunt ambele crime de oportunitate comise de infractori de carieră specializați în mod similar [7], astfel încât înfrânarea hoților poate ajuta la prevenirea violurilor.

Datele ADN sunt generate printr-un proces liniar de amplificare și citire în care evenimentele alelelor cantitative sunt combinate aritmetic. Astfel de date ADN generate liniar pot fi descrise matematic printr-un model liniar cantitativ [8], [9]. Unii practicanți analizează amestecurile folosind informații de vârf cantitative [10]. Cu toate acestea, majoritatea interpretării ADN criminalistice utilizează în prezent o logică booleană calitativă a evenimentelor de alelă cu totul sau cu nimic [11].

Există un consens redus cu privire la interpretarea ADN-LT și a amestecurilor. Metodele calitative încep prin aplicarea unui prag de înălțime de vârf la semnalul ADN cantitativ pentru a reține sau arunca vârfurile de date, eliminând informațiile despre înălțimea de vârf. Controversa actuală pune sub semnul întrebării alegerea valorii pragului numeric (variind de la 50 la 300 de unități) și câte praguri trebuie aplicate (unul [12], două [13] sau multe [14]). Practicanții dezbate dacă interpretarea amestecului ar trebui să ia în considerare contribuabilii cunoscuți [15], [16] sau, în schimb, să ignore genotipurile victimelor [13], [17]. Unii oameni de știință propun cum să interpreteze ADN-LT [4], în timp ce alții denegă practica cu totul [18]. S-a recunoscut [19] că modelarea matematică a datelor cantitative [8], [20] ar putea rezolva aceste probleme de „prag” și s-au înregistrat progrese considerabile în modelele statistice computerizate pentru interpretarea dovezilor complexe ale ADN-ului [9], [21] ., [22], [23].

Această dezbatere în curs ridică câteva întrebări importante. Care sunt adevăratele limite ale interpretării ADN-ului pentru amestecuri și probe cu șablon redus? Ce metode de interpretare disponibile pot extrage cele mai multe informații ADN pentru identificarea infractorilor? Cum se compară abordările cantitative de interpretare a amestecului de ADN cu practica calitativă actuală? Înțelegerea acestor probleme poate ajuta societatea să aloce resurse ADN eficiente pentru combaterea criminalității pentru creșterea siguranței publice.

În această lucrare, examinăm informațiile extrase prin metode cantitative și calitative de interpretare a ADN-ului. Aplicăm ambele metode aceluiași set de date de amestec cu greutăți variabile ale contribuitorilor și cantități de ADN. Identificăm un decalaj informațional între cele două abordări: metodele calitative sunt limitate la cantități de ADN vinovați de peste 100 pg, în timp ce metodele cantitative pot extinde interpretarea semnificativă până la 10 pg. Arătăm cum analiza decalajului informațional a fost utilă în prezentarea probelor ADN în instanță. Concluzionăm că metodele cantitative pot fi preferabile atunci când interpretăm dovezile amestecului LT-ADN.

Scopul general al studiului a fost de a compara eficacitatea relativă a metodelor computerizate cantitative mai noi de interpretare a amestecului de ADN cu metodele manuale calitative actuale. Am făcut acest lucru măsurând sensibilitatea fiecărei metode, exploatând o nouă observație că există o relație liniară între (logaritmul) cantității de ADN și informațiile de potrivire a ADN-ului. Am observat că interpretarea cantitativă a amestecului extinde limitele actuale de detecție ale metodelor calitative cu un ordin de mărime, atingând astfel scopul studiului.

Metode

Examinăm abordări alternative la interpretarea amestecului de ADN. Mai întâi prezentăm un model liniar cantitativ pentru a înțelege generarea de date STR șablon mixte și reduse. Vă explicăm modul în care modelul de probabilitate explică efectele stocastice. Apoi arătăm cum implementarea computerizată a acestui model cantitativ poate deduce genotipuri pentru contribuabilii la date. De asemenea, descriem metodele actuale de interpretare a amestecului calitativ utilizate în laboratoarele de criminalitate. Folosim o măsură de informații bazată pe raritatea potrivirii genotipului, care poate fi utilizată pentru a compara aceste metode de inferență cantitativă și calitativă. Arătăm, de asemenea, modul în care statisticile standard de potrivire a ADN-ului pot fi derivate din această măsură de informații. Pentru obiectivitate [24], întotdeauna deducem mai întâi un genotip (angajându-ne la un răspuns la toate locurile) și numai după aceea într-un al doilea pas îl potrivim cu un alt genotip [25]. De asemenea, descriem proiectarea datelor, software-ul și parametrii utilizați în acest studiu.

Model de date de amestec

În genotiparea în tandem scurt (STR), alelele corespund lungimii unui produs de reacție în lanț a polimerazei amplificate (PCR), care este testată prin separarea mărimii pe un secvențiator ADN [26], [27]. O nanogramă de ADN de la un singur individ produce unul sau două vârfuri alele înalte, împreună cu vârfuri mai mici de artefacte. Totuși, un amestec de ADN are mai mulți factori și poate produce un model de date mai complex [20], [28]. Cantități mai mici de ADN reduc înălțimile de vârf observate și cresc efectele stocastice. În analiza STR, atât amplificarea PCR, cât și detectarea secvențiatorului sunt procese fundamental liniare, astfel încât un amestec de genotipuri produce un semnal care este aproximativ suma semnalelor genotipului separat [29].

Putem modela datele cantitative la locus STR (de loci) folosind mai multe variabile. Vectorul de date formează un model care mapează lungimile produsului ADN în înălțimile (sau zonele) de vârf cantitative observate. Cu contribuitorii la date, reprezentăm parametrul genotip al contribuitorului la locus ca vector, unde intrările de lungime ADN conțin numere de alele care se ridică la 1 [8]. Un vector genotip heterozigot conține două intrări de 0,5, în timp ce un homozigot are o singură intrare; toate celelalte intrări vectoriale sunt 0 [30]. Parametrul greutății amestecului este reprezentat ca un vector ale cărui componente însumează 1 (adică). Cantitatea totală de ADN la locus este dată de parametrul de masă. Cu aceste trei variabile, un model liniar cantitativ al modelului de date la locus are o valoare vectorială așteptată dată de suma ponderată a genotipului în ecuația (1). (1) Un model mai complet ar aborda, de asemenea, bâlbâia PCR, amplificarea relativă, ADN degradat, separarea coloranților și zgomotul de fond [31]. Un rafinament ierarhic util modelează greutatea amestecului individual la fiecare locus, cu fiecare greutate extrasă dintr-o distribuție comună a amestecului șablon de ADN [32].

Există variații aleatorii în înălțimile de vârf observate rezultate din amplificarea PCR și detectarea secvențierului. PCR este un proces de ramificare [33] în care elementul aleatoriu provine din eficiența replicării ADN-ului, modelat printr-o copie (sau nu) a evenimentului Bernoulli pentru fiecare moleculă de ADN la fiecare ciclu [34]. Simulările pe computer [35] din acest model Bernoulli arată că varianța amplificării se înscrie cu înălțimea maximă y, o estimare a cantității de ADN. Studiile empirice demonstrează că PCR urmează o distribuție stochastică a numărului Poisson, unde varianța produsului este proporțională cu cantitatea de ADN [36]. Ca și în cazul altor modele de numărare a evenimentelor, este util să adăugați un factor de dispersie pentru a ține cont de deviația modelului [37], astfel că modelăm varianța de amplificare a unui vârf ca. Variația de detectare a secvențierului este independentă de cantitatea de ADN și poate fi modelată separat printr-un parametru de varianță constantă. De asemenea, observăm că vârfurile de date ar trebui să fie independente unele de altele.

Având în vedere aceste considerații, scriem matricea de covarianță a datelor ca în ecuația (2) unde este dispersia de amplificare, este variația de detecție și este o matrice diagonală de înălțimi de vârf. Putem apoi modela liniar vectorul de date folosind o distribuție normală trunchiată () multivariată a vectorului mediu și a matricei de covarianță [8] ca în ecuația (3). (3) Pot fi utilizate alte modele de date cu deviație pătrată [38], [39], precum și distribuții non-normale [40].

Arătăm un exemplu de semnal de date (Figura 1a) din locusul Penta D al eșantionului C3, descris mai jos în secțiunea Date. Există trei alele în perechile de alele suprapuse de două genotipuri contribuitoare și. Greutatea amestecului primului contribuitor „A” este de 70%, iar greutatea celui de-al doilea contribuitor „G” este de 30%. Suma ponderată a vectorilor genotipului formează un model de vârf ascendent (Figura 1b). Masa de vârf alelică totală este de 1.062 unități fluorescente relative (rfu). Vizual, vedem o potrivire bună între modelul de date cantitativ al înălțimii vârfului și estimarea liniară cantitativă a ecuației (1).