ABSTRACT

Majoritatea speciilor din lumea naturală folosesc mai multe tipuri de resurse ecologice distincte categoric. Multe specii de fluturi folosesc mai multe plante gazdă, de exemplu (Ehrlich și Raven 1964; Robinson 1999). Parulele insectivore din America de Nord temperată folosesc mai multe microhabitate distincte și comportamente de hrănire (MacArthur 1958), la fel ca și mâncătorii de miere din Australia mesică și aridă (Miller și colab. 2017). Evoluția noilor modele de utilizare a resurselor poate avea impact asupra evoluției fenotipice (Martin & Wainwright 2011; Davis și colab. 2016), diversificare (Mitter și colab. 1988; Givnish și colab. 2014), adunarea comunității (Losos și colab. 2003; Gillespie 2004) și funcția ecosistemului (Harmon și colab. 2009; Bassar și colab. 2010). În consecință, a existat un interes substanțial în înțelegerea modului în care evoluează trăsăturile ecologice legate de utilizarea resurselor și explorarea impactului acestora asupra altor fenomene evolutive și ecologice (Vrba 1987; Futuyma și Moreno 1988; Forister și colab. 2012; Price și colab. 2012; Burin et al. 2016).

complexe

Pentru a face inferențe cu privire la dinamica evolutivă a utilizării resurselor, totuși, este necesar mai întâi să rezumăm modelele complexe de variație observate între taxe în trăsături care pot fi modelate pe copaci filogenetici. Este larg recunoscut faptul că complexitatea reală a utilizării resurselor nu este descrisă în mod adecvat de un set de variabile categorice (Hardy & Linder 2005; Hardy 2006). Cu toate acestea, este de asemenea adevărat că diferențele majore în utilizarea resurselor pot fi uneori rezumate într-un set mic de stări ecologice, un punct subliniat de Mitter și colab. (1988) în studiul lor privind fitofagia și diversificarea insectelor. Din acest motiv, modelele în lanț continuu Markov (CTMC), care necesită clasificarea speciilor într-un set de stări de caracter, au devenit obișnuite în studiile macroevolutive ale evoluției trăsăturilor ecologice (Kelley & Farrell 1998; Nosil 2002; Price et al. 2012; Hardy & Otto 2014; Cantalapiedra și colab. 2014; Burin și colab. 2016). Modelele CTMC descriu un proces stocastic pentru tranziții evolutive între un set de stări de caracter și sunt utilizate pentru a deduce stări ancestrale și rate evolutive și pentru a efectua teste de ipoteză bazate pe model (O’Meara 2012).

Utilitatea lanțurilor Markov în timp continuu pentru studierea dinamicii evolutive a utilizării resurselor este limitată de presupunerea de modelare a faptului că taxele sunt monomorfe pentru stările ecologice (Hardy & Linder 2005; Hardy 2006). Ca o soluție practică, majoritatea studiilor empirice definesc una sau mai multe stări generalizate pentru a găzdui specii care utilizează mai multe tipuri de resurse și care, prin urmare, nu pot fi caracterizate ca specialiști pentru o anumită resursă (Alencar și colab. 2013; Price și colab. 2012; Burin și colab. 2016; Gajdzik și colab. 2019). O altă soluție, mai degrabă decât clasificarea fiecărei specii ca specialist sau generalist, reprezintă fiecare categorie de resurse cu un scor binar de prezent sau absent (Janz și colab. 2001; Colston și colab. 2010; Hardy 2017). În acest caz, starea ecologică a unei specii este resursele stabilite ca prezente. Fiecare dintre aceste abordări reprezintă o soluție la provocarea de modelare pusă de variația intraspecifică a utilizării resurselor, dar ambele soluții neglijează variația importanței relative a resurselor diferite pentru taxoni diferiți. În consecință, speciile clasificate într-un singur stat pot prezenta totuși diferențe substanțiale în tiparele de utilizare a resurselor, creând provocări pentru interpretarea tranzițiilor evolutive între stările de caracter precum și pentru înțelegerea legăturilor dintre evoluția stării de caracter și diversificare.

O altă limitare a lanțurilor Markov în timp continuu pentru modelarea evoluției utilizării resurselor reiese din faptul că speciile sunt clasificate în stări ecologice, fără a ține cont de calitatea și cantitatea informațiilor disponibile pentru efectuarea exercițiului de clasificare. De exemplu, speciile cu puține observații ecologice ar putea fi clasificate ca specialiști pentru o anumită resursă, atunci când specializarea lor aparentă este strict o funcție a numărului mic de observații ecologice disponibile pentru taxon. Mai general, prin eșecul utilizării unui model statistic pentru efectuarea atribuțiilor de stare a resurselor, neglijăm o sursă majoră de incertitudine în datele noastre: cunoștințele inegale și incomplete privind utilizarea resurselor între diferiți taxoni. La rândul său, această incertitudine are implicații substanțiale pentru modul în care proiectăm modele de utilizare a resurselor pe un set de stări de resurse. Nerespectând dimensiunile inegale și finite ale eșantionului caracteristice datelor empirice privind utilizarea resurselor, nu putem fi siguri dacă atribuțiile de stat reflectă adevărate asemănări sau diferențe în utilizarea resurselor sau sunt doar rezultatul așteptat al variației eșantionării.

În această lucrare folosim formularea stărilor ascunse ca distribuții de probabilitate pentru a dezvolta un model CTMC pentru studierea dinamicii evolutive a utilizării resurselor ecologice pe copaci filogenetici. Abordarea noastră este concepută în mod explicit pentru a modela trăsăturile resurselor care sunt intra-specific variabile și pentru a ține seama de incertitudinea în atribuțiile de stare ecologică a impozitului terminal care rezultă din efectele variației eșantionării. Presupunem că fiecare stare este o distribuție multinomială neobservată (latentă) și că datele observate sunt rezultate eșantionate din aceste distribuții latente (vezi panourile (i) până la (iii) din Fig. 1). Numărul de stări din model și stările în sine nu sunt observate direct și sunt estimate din date. Folosind simulări și un set de date empiric al dietelor de șarpe, arătăm cum metoda poate utiliza numărările observaționale pentru a deduce simultan numărul stărilor resurselor, utilizarea proporțională a resurselor de către diferite stări și distribuția filogenetică a stărilor ecologice între speciile vii și strămoșii lor. . Metoda este generală și se aplică oricăror date exprimabile ca un set de numărări observaționale din diferite categorii de resurse.

MATERIALE ȘI METODE

Descrierea modelului

Acest model pentru datele de numărare este strâns legat de modelele tematice ale compoziției cuvintelor într-o colecție de documente text (Blei și colab. 2003; Yin și Wang 2014) și de modelele genetice ale populației de compoziție a frecvenței alelelor într-un set de populații (de exemplu, programul STRUCTURA: Pritchard și colab. 2000). Diferența cheie aici este că statul atribuit unui taxon este rezultatul evoluției și nu este independent de stările altor linii. Conceptual, acest lucru este similar cu modelele de prag filogenetice, în care probabilitatea completă combină un model de probabilitate pentru evoluția unei variabile neobservate și un model de probabilitate pentru eșantionarea datelor observate condiționate de setul de variabile neobservate (Felsenstein 2012; Revell 2014). Modelăm evoluția ca un proces Poisson în care rata de schimbare este aceeași între toate stările (adică nu există o tendință evolutivă în model), dar variază între linii. Introducem două mecanisme pentru adaptarea la această variație a ratei.

Al doilea mecanism pentru acomodarea eterogenității ratei este în esență o versiune saturată a modelului de ceasuri locale aleatorii în care fiecare ramură are o rată unică de evoluție. În urma lui Huelsenbeck și colab. (2008), acest lucru ne permite să modelăm ratele specifice ramurilor ca parametri de neplăcere trase independent de o distribuție Gamma cu vector parametru (α, 1). Acest model induce aceeași distribuție a stărilor nodului ca un model în care numărul stării caracterelor așteptate se modifică de-a lungul unei ramuri este același pentru toate ramurile (Anexă). Acest lucru a fost denumit în altă parte modelul mecanismului ultra-comun (Steel 2011) pentru a-și marca contrastul cu modelul mecanismului care nu este comun (Tuffley și Steel 1997) din care derivă. În acest caz, probabilitatea schimbării într-o ramură descendentă ancestrală este,

Semnalul filogenetic este controlat de parametrul α, care este egal cu numărul așteptat de modificări de stare care au loc de la strămoș la descendent. Pe măsură ce α → 0, semnalul filogenetic se apropie de 1 deoarece descendenții seamănă aproape sigur cu strămoșii lor. Pe măsură ce α → ∞, semnalul filogenetic se apropie de 0, deoarece starea unui descendent devine independent de starea strămoșului său și seamănă cu o extragere aleatorie dintr-o distribuție uniformă discretă. Probabilitatea stărilor nodului este justă, unde n este numărul de noduri cu aceeași stare ca strămoșul lor, m este numărul de noduri cu o stare diferită de strămoșul lor, iar factorul explică probabilitatea stării rădăcinii.

Inferența bayesiană

Am simulat distribuția posterioară a stărilor nodurilor și a parametrilor modelului folosind algoritmul Metropolis-Hastings (Hastings 1970). Diferitele mecanisme de propunere sunt descrise mai jos.

Actualizarea stărilor nodului

Odată ce o stare este eșantionată pentru un nod, orice date de numărare asociate cu acel nod sunt adăugate la setul de date de numărare generate din starea eșantionată. Deoarece distribuția Dirichlet este conjugată cu distribuția multinomială, distribuția posterioară a distribuției multinomiale care stă la baza fiecărei stări este, de asemenea, Dirichlet distribuită cu parametrul (). Pe parcursul actualizării stărilor nodurilor, ținem evidența utilizării proporționale medii preconizate a fiecărei resurse de către fiecare stat. Utilizarea proporțională preconizată a resurselor este pur și simplu media distribuției posterioare care este .

Se actualizează β

Hiperparametrul simetric β controlează forma distribuției anterioare a Dirichlet pe distribuțiile multinomiale latente care stau la baza fiecărei stări de resurse. Când β = 1 distribuția este uniformă peste simplexul J-dimensional al resurselor. Când β 1 distribuția se concentrează spre centru. Deoarece seturile de date empirice sunt de obicei rare, cu multe zerouri, presupunem că β este distribuită uniform pe intervalul (0, 1) și actualizăm valoarea acestuia utilizând un mecanism de propunere a ferestrei glisante. Raportul anterior și raportul de propunere sunt 1.

Se actualizează α

Când ecuația (6) este utilizată pentru a calcula probabilitatea, hiperparametrul α controlează semnalul filogenetic. Deși poate lua orice valoare pozitivă, platourile de suprafață de probabilitate sunt relativ repede pe măsură ce amploarea crește și semnalul filogenetic se descompune. Rezolvând logaritmul lui (6) pentru estimarea maximă a probabilității lui α, constatăm că unde f este fracțiunea de noduri care au aceeași stare ca strămoșul lor. Valorile lui sunt în concordanță cu valorile infinite ale lui α. Prin urmare, am legat α mai sus de valoare, unde N este numărul de noduri (fără a include rădăcina) din filogenie. Presupunem că α este distribuită uniform între zero și această valoare superioară și actualizăm valoarea utilizând un mecanism de propunere a ferestrei glisante. Raportul anterior și raportul de propunere sunt 1.

Se actualizează Λ

Implementare

Funcțiile pentru adaptarea modelului la date sunt furnizate ca pachet R disponibil de pe github.com/blueraleigh/phyr. Pachetul include două funcții R care apelează programe C compilate care implementează ceasurile locale aleatorii și modele de mecanisme ultra-comune.

Studiu de simulare

Seturile de date simulate au fost generate din K = 2, 3, 4 și 5 stări de dietă utilizând distribuția empirică a mărimii eșantionului cu cele 8 categorii originale de resurse alimentare. Pentru fiecare K am efectuat mai întâi inferența bayesiană sub modelul mecanismului ultra-comun pentru a estima distribuțiile multinomiale neobservate. Distribuțiile multinomiale estimate au fost ulterior folosite pentru a simula observațiile dietei. Pentru fiecare K am simulat 20 de seturi de date la fiecare dintre cele 7 niveluri diferite de semnal filogenetic (0,1, 0,3, 0,5, 0,6, 0,7, 0,8 și 0,9) folosind probabilitățile de tranziție în ambele ecuații (3) și (5), rezultând 560 seturi de date pentru fiecare model și 1.120 seturi de date în total. Am definit semnalul filogenetic ca pii - pji, care variază de la 0 la 1 și cuantifică câtă informație oferă un stat descendent despre starea strămoșului său (Royer-Carenzi și colab. 2013). Folosind ecuația (5) pentru probabilitățile de tranziție rezultă un semnal filogenetic egal cu. Am folosit acest rezultat pentru a calcula valoarea lui α pentru fiecare simulare.

Când ecuația (3) este utilizată pentru probabilitățile de tranziție, fiecare ramură are un semnal filogenetic unic. Deoarece semnalul filogenetic este o funcție convexă a lungimii ramurilor, semnalul filogenetic mediu al tuturor ramurilor este mai mare sau egal cu semnalul filogenetic al ramurii medii, care este. Am folosit semnalul filogenetic al ramurii medii pentru a calcula valoarea Λ pentru fiecare simulare, pe care am aplicat-o tuturor ramurilor (adică seturile de date nu au inclus variații aleatorii ale ceasului local). Interesant, pentru o lungime de ramură dată (măsurată ca număr așteptat de modificări de stare) semnalul filogenetic cu ecuația (5) este întotdeauna mai mare decât semnalul filogenetic cu ecuația (3), sugerând că estimarea ratei de evoluție se schimbă cu estimarea stărilor nodului ancestral Gascuel și Steel 2018). Pentru fiecare set de date simulat am rulat un set de lanțuri Markov cu 1, 2, ..., până la stările de dietă K + 3. Fiecare lanț a fost rulat pentru 160.000 de iterații după o ardere de 30.000 de iterații, eșantionând la fiecare 128 de iterații pentru a produce 1.250 de probe posterioare.

Determinarea numărului de stări de resurse

Ilustrarea criteriului posteriori pentru determinarea numărului de stări din model. Panoul (a) arată probabilitatea medie a datelor empirice în funcție de numărul de stări de dietă. Panoul (b) descrie modul în care qK, cea mai mică probabilitate posterioară maximă marginală cu care o stare este atribuită taxonilor terminali, se modifică în funcție de numărul de stări. Inspecția probabilităților posterioare marginale arată că a șasea stare nu este niciodată atribuită fără ambiguitate unui nod terminal (panourile b și c). Din acest motiv, un model cu cinci stări de resurse este considerat optim. Utilizarea proporțională a diferitelor resurse alimentare de către aceste cinci state este ilustrată de graficul de trandafiri din panoul (d).

Evaluarea adecvării modelului

REZULTATE

În general, regula qK a identificat corect numărul de stări de resurse în 492 din 560 de simulări din modelul mecanismului ultra-comun (Fig. 5). În cele 68 de cazuri în care metoda a identificat incorect numărul de stări, a subestimat numărul de stări cu una (61 instanțe), două (4 instanțe) și trei stări (2 instanțe) și a supraestimat numărul de stări de către un stat în acele cazuri. Când regula qK a fost utilizată cu modelul de ceasuri locale aleatorii, a identificat corect numărul de stări în 475 din 560 de simulări (Fig. S1). În cele 85 de cazuri în care metoda a identificat incorect numărul de stări, a subestimat numărul de stări cu una (77 instanțe) și două stări (8 instanțe). Eșecul identificării corecte a numărului de stări apare în mod obișnuit atunci când numărul de observații generate de o stare este mic în raport cu numărul de observații din alte state. Acest lucru se întâmplă atunci când nodurile terminale care reprezintă un stat au diete slab eșantionate, ceea ce face ca statul să fie inclus în starea rudelor apropiate.

În ceea ce privește Figura 5 din textul principal, cu excepția faptului că simulările au fost făcute folosind probabilitățile de tranziție din ecuația (3) mai degrabă decât din ecuația (5).