Subiecte

Abstract

Am analizat peisajul de fitness local al avGFP prin estimarea nivelurilor de fluorescență ale genotipurilor obținute prin mutageneză aleatorie a secvenței avGFP (Fig. 1). Am folosit sortarea celulelor activate prin fluorescență (Fig. 1 suplimentară) și am secvențiat întreaga regiune de codificare GFP pentru a testa fluorescența multor mii de genotipuri create prin mutageneza aleatorie a secvenței de tip sălbatic (Informații suplimentare 2 și date extinse Fig. 1) . Am aplicat mai multe strategii pentru a minimiza eroarea estimării noastre de fluorescență (informații suplimentare 3.4 și 4.4), care a fost estimată din mii de măsurători independente ale secvenței de tip sălbatic (rata de eroare fals negativă = 0,08%) și genotipuri care încorporează mutații cunoscute de eliminați fluorescența (rata de eroare fals pozitivă = 0,24%). Setul nostru de date finale a inclus 56.086 secvențe de nucleotide unice care codifică 51.715 secvențe de proteine ​​diferite. Procedura noastră a introdus în medie 3,7 mutații per secvență de gene, iar cele mai multe genotipuri testate conțineau mai multe, până la 15, mutații cu sens. Totuși, deoarece numărul total de secvențe posibile crește exponențial odată cu numărul de mutații, fracțiunea de secvențe eșantionate a fost mică pentru secvențele care conțin mai mult de două mutații (Tabelul 1 de date extinse). Am folosit aceste date pentru a analiza peisajul de fitness local al GFP, analizând efectul mutațiilor simple, duble și multiple.

peisaj

A, AvGFP de tip sălbatic (centru) și majoritatea mutanților unici (cercul cel mai interior) fluoresc verde. Genotipurile cu mutații multiple pot prezenta epistaze negative, cu combinații de mutații neutre care creează fenotipuri non-fluorescente (gri) sau epistoză pozitivă, în care o mutație într-un genotip non-fluorescent restabilește fluorescența. b, Secvența GFP aranjată într-un cerc, fiecare coloană reprezentând un situs de aminoacizi. În primul cerc, intensitatea culorii pătratelor indică strălucirea unei singure mutații la locul corespunzător în raport cu tipul sălbatic, arătat în centru. Site-urile cu interacțiuni epistatice pozitive și negative între perechi de mutații sunt conectate prin linii verzi, respectiv negre. În cercuri mai îndepărtate de centru, reprezentând genotipuri cu mutații multiple, fracția coloanei colorate în verde (negru) reprezintă fracția de genotipuri corespunzătoare fluorescenței mari (scăzute) dintre toate genotipurile testate cu o mutație la locul respectiv. Foarfecele indică locul restricției.

10% dintre stările mutante care conferă un fenotip non-fluorescent au fost totuși fixate în evoluția pe termen lung (date extinse Fig. 3b), iar o fracțiune substanțială de genotipuri care conțin doar mutații care conduc la stări de aminoacizi de la ortologii GFP a fost ne-fluorescentă Fig. 3), indicând faptul că epistaza afectează peisajul de fitness avGFP 16 .

A, Distribuțiile fluorescenței măsurate independent pentru 2.442 secvențe de tip sălbatic (gri), 1.114 mutanți singuri (albastru) și fracția estimată a mutațiilor neutre (alb). b, c, Mutațiile cu un singur sens care scad puternic fluorescența (violet) au avut tendința să apară în locuri cu reziduuri orientate intern (b), afișat pe un șir β selectat al structurii GFP (c).

A, O reprezentare ipotetică a epistazei negative și pozitive în funcție de numărul de mutații unice din avGFP. WT, tip sălbatic. b, Fracția genotipurilor non-fluorescente observate (roșu) și fracția preconizată a genotipurilor non-fluorescente observate calculate ca suma efectelor log-fluorescenței mutațiilor individuale (albastru). c, Distribuțiile epistazei pentru epistazele negative și pozitive de forță diferită, cu rata de descoperire falsă așteptată prezentată în gri.

Epistaza negativă a afectat până la 30% din toate genotipurile, în funcție de numărul de mutații (Fig. 3b, c), care au dus la o fracțiune mai mare decât se aștepta de genotipuri non-fluorescente (Fig. 3c). Genotipurile care au mai mult de șapte mutații au arătat o scădere a prevalenței epistazei negative, deoarece multe genotipuri care au mutații multiple au fost de așteptat să piardă fluorescența chiar și fără epistază (Fig. 3b). Epistaza pozitivă a fost rară în avGFP, în ordinea preciziei metodei noastre. Am prelevat probe

2% din toate perechile posibile de mutații (Tabelul 1 de date extinse), testând 30% din perechile de situsuri de aminoacizi (16,898 din 55,696, date extinse Fig. 4a). Perechile epistatice de site-uri au fost localizate pe secvența avGFP (date extinse Fig. 4a), mai ales dincolo de intervalul de interacțiune fizică directă a reziduurilor de aminoacizi (date extinse Fig. 4b), dar marginal mai apropiate decât aleatorii (date extinse Fig. 4c), P 8.20. În cele din urmă, epistaza a fost mai frecventă între perechile de site-uri în care ambele reziduuri sunt orientate intern (date extinse Fig. 4e). Luate împreună, aceste date indică faptul că epistaza a fost mai frecventă pe site-uri importante din punct de vedere funcțional.

Într-un peisaj unidimensional, fitnessul este o funcție monotonă a unei variabile intermediare cunoscută sub numele de potențialul de fitness 21.22, care este suma efectelor mutațiilor individuale. Am folosit regresia multiplă având în vedere o funcție de fitness non-epistatică în care log-fluorescența, F, este egal cu predictorul liniar, potențialul de fitness, p, astfel încât F = f(p) = p. Acest model cel mai simplu, non-epistatic, a explicat doar 70% din varianța eșantionului inițial (σ 2 = 1,12 și σ 2 = 0,34 înainte și după aplicarea modelului, respectiv). Folosind varianța celor 2.442 măsurători de fluorescență de tip sălbatic, am estimat că

1% din varianța eșantionului inițial poate fi atribuită zgomotului (σ 2 = 0,0097), indicând faptul că restul de 29% din varianța eșantionului nu poate fi explicat fără epistază.

Cea mai simplă formă a unei funcții de fitness epistatică este atunci când fitness-ul este o funcție monotonă neliniară a p 21.22. Lipsa genotipurilor cu fluorescență intermediară (date extinse Fig. 5a) sugerează că peisajul de fitness avGFP poate fi descris printr-o funcție de fitness asemănătoare trunchierii 23. Prin urmare, am modelat F ca funcție sigmoidă a p, care a explicat 85% din varianța eșantionului inițial (σ 2 = 0,17). O funcție de fitness mai complexă în formă de sigmoidă rafinată cu o abordare a rețelei neuronale (Informații suplimentare 4.6) a explicat 93,5% din varianța eșantionului inițial (σ 2 = 0,065, date extinse Fig. 5), confirmând că peisajul de fitness poate fi reprezentat în cea mai mare parte de o funcție de prag unidimensional (Fig. 4), care poate apărea din contribuția comună a mutațiilor la stabilitatea proteinelor 8,13,14,20,24. Fluorescența medie a mutanților unici ai avGFP în funcție de destabilizarea proteinei prevăzută, ΔΔG, relevă un prag în jurul valorii de 7-9 kcal mol -1 (Fig. 4). În special, valoarea ascunsă găsită de rețeaua neuronală artificială pentru mutanți singuri a fost corelată cu valoarea predict prevăzutăG (Fig. 4 și Date extinse Fig. 5f), confirmând o influență probabilă a stabilității proteinelor asupra naturii epistazei în avGFP. Funcția de prag de fitness face o treabă remarcabil de bună în aproximarea întregului peisaj de fitness, explicând

95% din toate varianțele. Cu toate acestea, atunci când luăm în considerare rata de eroare a setului nostru de date, estimăm că cel puțin 0,3% din genotipuri nu pot fi explicate prin funcția de fitness prag (Informații suplimentare 4.5 și date extinse Fig. 5d), reprezentând cazuri de epistază multidimensională 2, 5.7 .

Fluorescența mediană a GFP cu mutații unice în funcție de efectul lor asupra energiei de pliere prezise (ΔΔG), suprapusă cu funcția de fitness asemănătoare sigmoidului obținută independent, prevăzută de rețeaua neuronală (linia portocalie). Barele de erori denotă s.d.

Rata normalizată de evoluție convergentă către stări de aminoacizi ancestrali terminali și reconstituiți pentru fiecare coș de distanță (puncte gri). Probabilitatea așteptată (linia portocalie) și observată în datele experimentale (puncte portocalii) ca o singură mutație să rămână fluorescentă pe măsură ce secvența acumulează alte substituții. Probabilitatea așteptată (linia verde) și observată (punctele verzi) ca o mutație non-fluorescentă să devină fluorescentă cu divergența secvenței. Barele reprezintă un interval de încredere în proporție binomială (nivel de încredere 68%).

Congruența largă a datelor noastre cu prevalența epistazei din evoluția pe termen lung sugerează că forma peisajului local de fitness poate fi extrapolată la o scară mai mare. Cu toate acestea, epistaza între siturile care codifică reziduurile cu o interacțiune directă în structura proteinei a fost rară, contrastând cu observarea unor astfel de cazuri în evoluția pe termen lung 16 și cu o analiză a mutației domeniului motivului de recunoaștere a ARN (RRM) 12. Astfel, peisajul de fitness local care acoperă câteva mutații dintr-un singur vârf de fitness poate fi aproximat printr-o funcție potențială de fitness de prag unidimensional; cu toate acestea, această funcție de fitness simplă poate să nu fie adecvată pentru a descrie peisaje de fitness care încorporează creste de fitness care conectează secvențe de ortologi mai divergenți 27. Natura peisajelor globale de fitness, în special interacțiunea dintre scările locale și globale, rămâne de explorat.