Ross A. Hammond

1 Center on Social Dynamics and Policy, The Brookings Institution, Washington, DC, SUA

model

Joseph T. Ornstein

1 Center on Social Dynamics and Policy, The Brookings Institution, Washington, DC, SUA

Lesley K. Fellows

2 Institutul și Spitalul Neurologic din Montreal, Universitatea McGill, Montreal, QC, Canada

Laurette Dubé

3 Facultatea de Management Desautels, Universitatea McGill, Montreal, QC, Canada

Robert Levitan

4 Departamentul de Psihiatrie, Universitatea din Toronto, Toronto, ON, Canada

Alain Dagher

2 Institutul și Spitalul Neurologic din Montreal, Universitatea McGill, Montreal, QC, Canada

Abstract

Procesul de condiționare prin învățarea recompensei este extrem de relevant pentru studiul alegerii alimentelor și al obezității. Învățarea este în sine modelată de expunerea la mediu, cu potențialul ca astfel de expuneri să varieze în mod substanțial între indivizi, în funcție de loc și timp. În această lucrare, folosim tehnici de calcul pentru a extinde un model standard bine validat de învățare a recompensei, introducând atât eterogenitate substanțială, cât și expuneri dinamice la recompense. Apoi, aplicăm modelul extins unui context de alegere a alimentelor. Modelul produce o varietate de comportamente individuale și modele la nivel de populație care nu sunt evidente din formularea tradițională, dar care oferă perspective potențiale pentru înțelegerea învățării recompensei alimentare și a obezității. Acestea includ un efect de „blocare”, prin care expunerea timpurie poate modela puternic evaluarea recompensei ulterioare. Discutăm implicațiile potențiale ale rezultatelor noastre pentru studiul și prevenirea obezității, pentru câmpul de învățare a recompenselor și pentru viitoarele lucrări experimentale și de calcul.

Introducere

Obezitatea are o etiologie complexă, cu multiple căi cunoscute (Huang și Glass, 2008; Hammond, 2009; Dubé și colab., 2010; IOM, 2010, 2012). Dovezi considerabile sugerează că mediul alimentar poate fi un factor important al obezității (Lakdawalla și Philipson, 2009) și că indivizii pot diferi prin tendința lor de a consuma în exces ca răspuns la indicii alimentare din mediu (Guerrieri și colab., 2008). Unii cercetători se referă la „foamea hedonică” - foamea condusă de indicii alimentare și anticiparea plăcerii alimentare mai degrabă decât de necesitățile calorice pur homeostatice (Lowe și Butryn, 2007) - subliniind importanța sistemelor de recompensare a creierului în orientarea deciziilor alimentare.

Ne concentrăm pe propunerea conform căreia preferința pentru alimentele bogate în calorii și incapacitatea de a rezista atracției indicilor alimentari se dezvoltă parțial printr-o formă de condiționare (Epstein și colab., 2007). Condiționarea se referă la atribuirea proprietăților de stimulare unor indicii anterior neutre asociate cu recompense primare, cum ar fi mâncarea, prin învățare (Frank și Claus, 2006; Samson și colab., 2010). Persoanele cu o capacitate sporită de a învăța din recompense ar fi mai predispuse la această formă de condiționare și, de asemenea, la fenomenul conex de sensibilizare, care se referă la o creștere progresivă a răspunsului neuronal și comportamental la recompense repetate (Robinson și Berridge, 1993) . Cercetările pe animale sugerează cu tărie că diferențele inerente în sistemul dopaminei promovează învățarea diferențiată despre indicii de predicție a recompenselor, care, la rândul lor, promovează o motivație mai mare de a consuma și de a căuta recompensa asociată în prezența acestor indicii (Dalley și colab., 2005, 2007; Petrovich și Gallagher, 2007; Flagel și colab., 2008, 2009; Berridge și colab., 2009; Yager și Robinson, 2010; Lovic și colab., 2011).

Modelul pe care îl prezentăm în această lucrare nu este destinat să fie un model cuprinzător al comportamentului alimentar, ci se concentrează în mod special pe elucidarea rolului învățării recompensatoare. Prin excluderea altor factori care contribuie, cum ar fi homeostazia, controlul executiv și normele alimentare, izolăm efectul dinamic al învățării recompensei în contextul expunerii variate și schimbătoare a recompensei de mediu. Modelul nostru nu se referă în mod explicit la dopamină, chiar dacă rolul său în învățarea și sensibilizarea la medicamente și alimente nu este pus la îndoială (Sclafani și colab., 2011). Mai degrabă propunem că o vulnerabilitate moștenită (învățarea îmbunătățită a recompenselor), împreună cu un mediu bogat în alimente bogate în calorii, poate duce la adaptări neuronale de lungă durată care promovează consumul excesiv de-a lungul vieții. Explorăm ipoteza că învățarea dinamică a recompenselor poate ajuta la explicarea atât a importanței vieții timpurii, ca o perioadă cheie în dezvoltarea comportamentului alimentar, cât și a dovezilor contradictorii din jurul efectului mediului alimentar asupra comportamentului alimentar și a obezității (Morland și colab., 2006 Larson și colab., 2009; Murakamia și colab., 2010).

Modelul de învățare utilizat aici este un algoritm de învățare prin diferență temporală (TDL) (Montague și colab., 1996; Schultz și colab., 1997; Sutton și Barto, 1998). Acest model prezintă un interes deosebit, deoarece dovezile extinse ale oamenilor și animalelor sugerează că semnalele TDL sunt transportate de neuronii dopaminei din creier (Schultz, 1998), iar studiile experimentale au validat acest model matematic general de învățare la nivel individual în condiții atent controlate ( Montague și colab., 1996; Schultz și colab., 1997; O'Doherty și colab., 2003). În contextul alegerii alimentelor, mediul individual poate modela puternic alegerile de consum disponibile și, astfel, cursul învățării. Mai mult, mediul la care este expus un individ se poate schimba în timp. Dacă TDL trebuie să ofere un cadru practic pentru modelarea învățării recompensei alimentare, atunci aceste considerații trebuie incluse. Obiectivul nostru principal nu este de a evalua eficacitatea algoritmului la realizarea învățării adecvate într-un context spațial complex (ca în Tesauro, 1992; Ng și colab., 2004; Whiteson și colab., 2010), ci mai degrabă să explorăm implicațiile sale pentru alegerea alimentelor în cadrul unor modele dinamice eterogene de expunere la mediu.

În această lucrare, dezvoltăm o extensie a cadrului TDL pentru a modela în mod explicit mișcarea în diferite medii de expunere în timp. Pentru a surprinde aceste dinamici și eterogenitatea locală în expunerea la mediu, construim o simulare folosind modelarea computațională bazată pe agenți (ABM), un cadru adecvat modelării dinamicii, învățării și structurilor spațiale non-aleatorii (Pagină, 1999; Axelrod, 2006; Hammond și Axelrod, 2006; Tesfatsion și Judd, 2006). Abordarea multi-agent permite, de asemenea, extinderi viitoare ale modelului, cum ar fi încorporarea datelor empirice privind interacțiunile sociale, geografiile alimentelor și căile neurobiologice suplimentare. Învățarea recompenselor așa cum este modelată aici poate fi astfel încorporată într-o abordare mai cuprinzătoare de modelare a „sistemelor” obezității (Auchincloss și Diez Roux, 2008; Mabry și colab., 2008, 2010; Huang și colab., 2009; IOM, 2010, 2012; Levy și colab., 2011; Hammond și Dube, 2012).

Rezultatele noastre arată cum expunerile la recompense diferențiale și dinamice pot duce la diferențe non-banale în cursul învățării în rândul indivizilor. De asemenea, demonstrăm că expunerea timpurie poate influența puternic recompensa învățării și poate „bloca” experiența timpurie într-un mod care modelează comportamentul ulterior. Începem cu cel mai simplu model posibil, reproducând rezultatele analitice așteptate din formularea TDL de bază și apoi adăugăm secvențial eterogenitate individuală, complexitate spațială și expuneri dinamice de recompensă pentru a explora ipoteze specifice despre impactul fiecăruia asupra rezultatelor învățării recompensei.

Materiale și metode

Cadrul de învățare a diferenței temporale

În forma sa standard, modelul TDL simulează învățarea recompensei prin semnale de eroare de predicție a recompensei (care poate fi semnalată în creier de dopamină). Mărimea semnalizării erorilor este reprezentată de termenul delta (δ), care este diferența dintre valoarea reală experimentată a recompensei la momentul t, V (t) și valoarea prezisă de agent a recompensei, V ^ (t) . Valoarea estimată este actualizată în fiecare rundă în conformitate cu

unde α este rata de învățare.

În această lucrare, adaptăm acest cadru la un model de învățare a recompenselor alimentare. Definim o varietate de tipuri de alimente, cu diferite valori de recompensă asociate consumului lor. Fiecare tip alimentar j are o palatabilitate intrinsecă (pj). Pentru a permite posibilitatea eterogenității individuale în preferințe și recompensarea alimentelor, adaptarea noastră a cadrului TDL permite ca „adevăratul” V asociat fiecărui tip de aliment să difere între agenți. Permitem V să varieze pentru fiecare agent i, pe baza unui multiplu al gustului de bază - beta (β). Ne referim la βij ca sensibilitatea agentului i la alimente j. Această extensie a modelului standard TDL este adecvată pentru modelarea situațiilor în care evaluarea recompenselor variază între indivizi, ca și în alegerea alimentelor. Prin urmare: