Zhijun Yin

1 Universitatea Vanderbilt, Nashville, Tennessee, SUA

Wei Xie

1 Universitatea Vanderbilt, Nashville, Tennessee, SUA

Bradley A. Malin

1 Universitatea Vanderbilt, Nashville, Tennessee, SUA

Abstract

Introducere

Cancerul de sân este cel mai răspândit cancer în rândul femeilor americane 1 și a doua cauză de deces în rândul femeilor cu cancer (chiar în spatele cancerului pulmonar) 2. Se estimează că aproape 12% dintre femeile americane vor dezvolta în cele din urmă cancer de sân invaziv pe parcursul vieții lor 3. Un tratament inițial obișnuit pentru cancerul de sân este intervenția chirurgicală (de exemplu, lumpectomia sau mastectoctomia), în timp ce terapia adjuvantă (adică tratamentul după intervenția chirurgicală) este adesea invocată pentru a reduce riscul de recurență a cancerului 4. În special, terapia adjuvantă hormonală este un tratament popular cu o experiență dovedită de îmbunătățire semnificativă a ratei de supraviețuire pe termen lung a pacienților cu cancer de sân hormon-receptor pozitiv 5. Acest lucru este remarcabil deoarece acest subtip de boală cuprinde 75% din toate cazurile de cancer mamar 1. Pentru a maximiza acest beneficiu al terapiei hormonale, pacienților li se prescrie un regim de medicamente care se așteaptă să continue pentru cel puțin cinci ani 6. De exemplu, administrarea de tamoxifen (un medicament cu terapie hormonală orală) timp de cinci ani reduce mortalitatea prin cancer de sân cu 33% în deceniul după tratamentul inițial 7. Mai mult, dovezi mai recente 8 sugerează că menținerea unui regim de tamoxifen timp de încă cinci ani poate reduce și mai mult mortalitatea cu aproximativ 50%.

În această lucrare, ne propunem să dezvoltăm un cadru de învățare automată pentru a distinge mențiunile despre comportamentul de aderență la terapia hormonală (HTAB) de alte conținuturi de text liber mai puțin relevante din forumurile de sănătate online. În special, ne interesează studierea comportamentelor pacienților (și a factorilor asociați acestora), cum ar fi luarea unui medicament prescris sau întreruperea tratamentului (de exemplu, oprirea sau întreruperea unui regiment sau trecerea la un alt medicament). În cadrul nostru, sarcina de a distinge mențiunile și nemențiunile HTAB este aruncată ca o problemă de clasificare. Pentru a maximiza performanța predictivă a cadrului nostru, adaptăm și compunem extensiv tehnici de preprocesare și inginerie a caracteristicilor, precum și validăm și interpretăm efectele acestora. Cadrul nostru demonstrează că, prin aplicarea tehnicilor de procesare a limbajului natural și a tehnicilor de învățare automată, putem obține un clasificator eficient pentru a detecta automat mențiunile (și nemențiunile) comportamentelor de aderență la tratamentul terapiei hormonale. În cele din urmă, efectuăm analize de conținut (prin termeni medicali) pentru a obține o perspectivă asupra factorilor care afectează modul în care oamenii comunică luând un comportament medicamentos și întrerupând comportamentul medicamentos.

Munca noastră contribuie la câmpul datelor online generate de utilizatori (sau de pacienți) (de exemplu, în platformele sociale și comunitățile de discuții), în special atunci când este aplicat pentru a suplimenta sursele de date tradiționale (de exemplu, EMR) pentru a studia problemele legate de sănătate. În acest domeniu de cercetare, recunoaștem că există o colecție tot mai mare de studii care acoperă o gamă largă de domenii, inclusiv tendințele gripei 20, sănătatea mintală 11.12, problemele de confidențialitate referitoare la sănătate menționează 21.22, precum și cum să construim comunități online pentru a oferi sprijin local pentru cancer 23. Mai mult, în ceea ce privește acest subiect de cercetare specific, Freedman și colab. 24 au studiat un număr mare de posturi menționând tratamentele împotriva cancerului (inclusiv terapia hormonală) și au identificat barierele de tratament care se manifestă din diferite aspecte, inclusiv emoții, preferințe și credințe religioase. Mao și colab. 25 au constatat că durerea articulară este principalul motiv pentru care pacienții încetează să mai ia tratamentul cu inhibitori de aromatază (AI) în discuțiile online despre efectele secundare ale medicamentelor. Au existat, de asemenea, mai multe studii care se concentrează pe BreastCancer.org, după cum sa discutat într-o revizuire recentă 26, deși accentul a fost pus pe diferite probleme de predicție.

Metode

Scopul nostru este de a construi un cadru automat pentru a distinge statutul HTAB (mențiuni și nemențiuni) și de a afla factorii asociați. Figura 1 prezintă cele trei componente principale ale cadrului propus: 1) pregătirea datelor, 2) construirea clasificatorilor și 3) analiza conținutului. Mai exact, datele cu text liber din postările utilizatorilor sunt colectate mai întâi de pe forumul de terapie hormonală din forumul de discuții online breastcancer.org. Aceasta produce o cantitate mare de text neetichetat. Apoi, un subset de propoziții care conțin cel puțin unul dintre cele șapte cuvinte cheie comune pentru medicamente pentru terapia hormonală (de exemplu, Tamoxifen) sunt etichetate manual pe baza conținutului lor printr-un model de vot majoritar. Frazele etichetate sunt apoi aplicate pentru a se potrivi mai multor clasificatori candidați, iar modelul cu cea mai bună performanță este aplicat pentru a crește numărul de date etichetate. În cele din urmă, după extragerea diferitelor HTAB, se aplică o analiză de regresie pentru a studia factorii asociați.

detectarea

Cadrul pentru studierea HTAB printr-un forum online de date despre cancerul de sân. Trei componente de bază sunt evidențiate în figură: 1) pregătirea datelor, 2) clasificatorul mențiunii HTAB și 3) comparația HTAB.