Katrina J Serrano

1 Institutul Național al Cancerului, Bethesda, MD, Statele Unite

datele

Mandi Yu

1 Institutul Național al Cancerului, Bethesda, MD, Statele Unite

Kisha I Coa

2 ICF International, Rockville, MD, Statele Unite

Linda M Collins

3 Pennsylvania State University, State College, PA, Statele Unite

Audie A Atienza

2 ICF International, Rockville, MD, Statele Unite

Abstract

fundal

Mai mult de jumătate din toate descărcările aplicațiilor smartphone implică greutate, dietă și exerciții fizice. Dacă au succes, aceste aplicații de stil de viață pot avea efecte de anvergură pentru prevenirea bolilor și reducerea costurilor pentru sănătate, însă puțini cercetători au analizat datele din aceste aplicații.

Obiectiv

Scopul acestui studiu a fost analizarea datelor dintr-o aplicație comercială de sănătate (Lose It!) Pentru a identifica subgrupurile de slăbire cu succes prin analize exploratorii și pentru a verifica stabilitatea rezultatelor.

Metode

Date transversale, dezidentificate din Lose It! au fost analizate. Acest set de date (n = 12.427.196) a fost împărțit aleatoriu în 24 de subprobe, iar acest studiu a folosit 3 subprobe (combinate n = 972.687). Metodele de clasificare și arborescență de regresie au fost utilizate pentru a explora grupările de scădere în greutate cu un singur eșantion, cu analize descriptive pentru a examina alte caracteristici ale grupului. Metodele de validare a exploatării datelor au fost efectuate cu 2 submostre suplimentare.

Rezultate

În sub-eșantionul 1, 14,96% dintre utilizatori au pierdut 5% sau mai mult din greutatea corporală inițială. Analiza arborelui de clasificare și regresie a identificat 3 subgrupuri distincte: „utilizatorii ocazionali” au avut cea mai mică proporție (4,87%) de indivizi care au slăbit cu succes; „Utilizatorii de bază” au avut 37,61% pierderea în greutate; iar „consumatorii de energie” au obținut cel mai mare procent de succes în pierderea în greutate la 72,70%. Factorii comportamentali au delimitat subgrupurile, deși caracteristicile comportamentale legate de aplicații le-au distins în continuare. Rezultatele au fost replicate în analize ulterioare cu submostre separate.

Concluzii

Acest studiu demonstrează că subgrupurile distincte pot fi identificate în datele „dezordonate” ale aplicațiilor comerciale și subgrupurile identificate pot fi reproduse în eșantioane independente. Factorii comportamentali și utilizarea caracteristicilor aplicației personalizate au caracterizat subgrupurile. Direcționarea și adaptarea informațiilor la anumite subgrupuri ar putea spori succesul pierderii în greutate. Studiile viitoare ar trebui să reproducă analizele miniere de date pentru a spori rigoarea metodologiei.

Introducere

Deținerea de smartphone-uri în rândul adulților americani a crescut de la 35% în 2011 la 68% în 2015 [1]. Această creștere a coincis cu proliferarea aplicațiilor pentru smartphone-uri, iar 19% din toate descărcările de aplicații sunt legate de sănătate, mai mult de jumătate dintre acestea implicând greutate, dietă și exerciții fizice [2]. Acest lucru oferă noi oportunități de a oferi intervenții pentru schimbarea comportamentului de sănătate și pierderea în greutate în Statele Unite, unde ratele de obezitate au rămas ridicate [3].

Deși aplicațiile arată o mare promisiune pentru a ajuta persoanele să piardă în greutate și să gestioneze obiceiurile de viață [4-6], lipsesc încă dovezi care să susțină impactul aplicațiilor comerciale asupra comportamentului asupra sănătății și a pierderii în greutate. Acest lucru se poate datora lipsei principiilor de slăbire bazate pe dovezi în aplicațiile disponibile în prezent [7]. Dar având în vedere popularitatea acestor aplicații, implicațiile potențiale sunt de anvergură, nu numai în ceea ce privește prevenirea bolilor (de exemplu, diabet, boli cardiovasculare, cancer), ci și în ceea ce privește economia de costuri [8-11].

Datele care sunt colectate din aplicațiile comerciale de sănătate nu sunt adesea colectate având în vedere cercetarea științifică. Cu toate acestea, aceste aplicații pot ajunge la milioane de utilizatori. Dacă sunt analizate cu metode științifice riguroase, datele potențial bogate colectate din aceste aplicații pot oferi informații importante despre modul în care are loc schimbarea comportamentului în medii naturaliste în segmentele mari ale populației. Analizele exploratorii, cum ar fi metodele de extragere a datelor, care pot fi utilizate pentru a examina datele de sănătate existente nu sunt noi [11-13], dar rareori au fost utilizate pentru a examina datele de sănătate colectate din aplicații comerciale.

În plus, metodele științifice pentru a examina fiabilitatea și robustețea analizelor exploratorii (de exemplu, metodele de validare a exploatării datelor) au fost, de asemenea, disponibile de ceva timp [14,15], dar nu au fost utilizate cu datele aplicațiilor de sănătate. Cu milioane de indivizi care folosesc aplicații comerciale de sănătate, există acum oportunități atât pentru exploatarea datelor exploratorii, cât și pentru metodele de validare a exploatării datelor, care să aibă loc în succesiune rapidă. Metodele de validare a exploatării datelor măresc rigoarea științifică a abordărilor exploratorii testând dacă constatările inițiale sunt stabile.

Din câte știm, niciun studiu nu a explorat eficacitatea unei aplicații comerciale de scădere în greutate ȘI a evaluat fiabilitatea descoperirilor exploratorii. Scopul acestui studiu a fost de a (1) evalua prevalența pierderii în greutate în rândul adulților supraponderali și obezi din datele colectate de o aplicație comercială, (2) a identifica subgrupurile de pierdere în greutate cu succes și a caracteristicilor acestora utilizând tehnici exploratorii de extragere a datelor și (3) examinează fiabilitatea subgrupurilor identificate folosind eșantioane independente.

Metode

Set de date

Am analizat un subset de date transversale, dezidentificate (n = 12,427,196), care au fost obținute direct din Lose It! (FitNow Inc., Boston, MA, SUA). Datele au fost puse la dispoziția cercetătorilor de la Institutul Național al Cancerului doar în scopuri de cercetare. Lose It! - Lansat în 2008 - este o aplicație de slăbit care este disponibilă atât pe piețele de aplicații iOS și Android, cât și pe web. Lose It! (de acum, denumită aplicație) oferă utilizatorilor instrumente de urmărire (de exemplu, scanere de coduri de bare); conexiuni cu alte dispozitive și aplicații (de exemplu, Fitbit, RunKeeper); motivație și sprijin (de exemplu, legătura cu prietenii); și feedback nutrițional (de exemplu, rapoarte generate de sistem care compară jurnalul alimentar al unui utilizator cu recomandările MyPlate ale Departamentului Agriculturii din SUA).

În aplicație, un utilizator creează un cont și un plan de scădere în greutate pe baza înălțimii, greutății, nivelului de exercițiu, obiectivului de greutate vizat și scăderii săptămânale dorite. Apoi, aplicația folosește toate aceste informații pentru a calcula un buget estimat de calorii care este destinat să producă deficitul de energie necesar pentru îndeplinirea obiectivului de pierdere în greutate. Planul de slăbire constă în înregistrarea dietei, a exercițiilor fizice și a greutății, fie prin auto-raportare, fie printr-un dispozitiv sincronizat (de exemplu, cântare corporale conectate la WiFi). Aplicația oferă instrumente de motivație și asistență, permițând utilizatorilor să identifice prietenii și să le împărtășească progresul și informațiile. Utilizatorii pot participa și la grupuri concepute pentru a motiva utilizatorii; de exemplu, un grup prezentat - „Suntem cu toții împreună!” - este descris ca „un grup pentru persoanele care doresc să ofere motivație și persoanele care doresc să primească motivație”.

Datele analizate provin de la utilizatori care au avut aplicația în anii 2008-2014. Datele furnizate pentru analiză provin din baza de date de raportare a metadatelor aplicației, care este utilizată pentru alimentarea aplicației și oferă un rezumat general al activității utilizatorilor. Astfel, datele analizate au fost de natură transversală. Setul de date a inclus următoarele informații: vârsta la configurarea contului, sexul, înălțimea, greutatea corporală, indicele de masă corporală (IMC), greutatea obiectivului dorit, pierderea săptămânală dorită, numărul de zile conectate pentru hrană și exerciții, numărul de exerciții caloriile arse, numărul de calorii consumate, numărul de ori cântărit, numărul de zile active, data ultimei activități, dispozitivele și aplicațiile conectate la contul unui utilizator, tipul de sistem de operare utilizat, numărul de prieteni și grupuri din aplicație, numărul de provocările la care au participat utilizatorii, numărul de obiective personalizate, alimente, rețete și exerciții introduse de utilizatori și opțiuni specifice aplicației (de exemplu, are o imagine, folosește memento-uri). Datele privind greutatea și comportamentul sănătății au fost auto-raportate, în timp ce datele tehnice (de exemplu, tipul de sistem de operare utilizat, opțiuni specifice aplicației) provin din baza de date a aplicației. Datele longitudinale care consumă mai mult timp pentru eșantionul complet de utilizatori între 2008 și 2014 nu erau disponibile la momentul analizei.

Rezultatul interesului a fost pierderea în greutate, definită în scopul acestui studiu ca pierderea cu 5% sau mai mult din greutatea corporală inițială a unui utilizator, care s-a dovedit a duce la efecte benefice asupra sănătății [16-18]. Aceasta a fost calculată scăzând 5% din greutatea inițială a unui utilizator din greutatea minimă a unui utilizator. Dacă acest număr a fost mai mic sau egal cu zero, atunci pierderea în greutate a fost clasificată ca da, toate celelalte au fost clasificate ca nu. Următorii predictori au fost incluși în analize: vârsta, sexul, numărul de greutăți, greutatea țintă, obiectivul săptămânal de scădere în greutate, greutatea inițială, IMC inițial, zilele de hrană și exerciții înregistrate, hrana medie și caloriile de efort înregistrate, zile active în aplicație, vârsta la configurarea aplicației, tipul de dispozitiv sau aplicație utilizată, tipul de sistem de operare utilizat, numărul de prieteni, numărul de grupuri, numărul de provocări, utilizarea de memento-uri, obiective personalizate, rețete personalizate, exerciții personalizate și aplicații- opțiuni specifice.

analize statistice

Analiza arborelui de clasificare și regresie (CART) a fost efectuată în sub-eșantionul 1 (în continuare, cunoscut sub numele de eșantion de antrenament). Metodele CART au fost aplicate din ce în ce mai mult la cercetarea comportamentului în sănătate în scopuri exploratorii [19-23]. Analiza CART este un tip de metodă a arborelui decizional, numită și partiționare recursivă, care este utilă pentru construirea modelelor de predicție din date [19,20,24-26]. CART folosește statistici neparametrice pentru a identifica subgrupuri excluzive și exhaustive de indivizi care împărtășesc caracteristici comune care influențează variabila dependentă de interes. Procedura CART utilizează un criteriu de împărțire preselectat pentru a evalua toate variabilele independente posibile și alege o variabilă (de exemplu, variabilă de împărțire) care are ca rezultat grupuri binare care sunt cele mai diferite în ceea ce privește variabila dependentă. Criteriul de divizare utilizat a fost indicele Gini al diversității [25], care selectează divizarea care maximizează reducerea impurității sau diversității unui nod, reducând astfel eroarea de clasificare [19,25].

Metodele CART au mai multe avantaje față de abordări mai tradiționale, cum ar fi regresia logistică. Deoarece CART este inerent nonparametric, nu se fac presupuneri cu privire la distribuția subiacentă a datelor. Astfel, poate gestiona distribuții foarte distorsionate sau chiar scoruri extreme sau valori anormale [19,20,26]. CART are, de asemenea, metode sofisticate pentru tratarea datelor lipsă, iar datele lipsă sunt luate în considerare pentru fiecare variabilă la fiecare punct de divizare. Dacă datele lipsesc într-un anumit punct de divizare, se utilizează variabile surogat care conțin informații similare divizorului primar [27,28]. Aceasta este, de asemenea, o considerație importantă, având în vedere datele lipsă observate de obicei în datele aplicațiilor de sănătate comercială.

Analiza CART a fost efectuată în R (versiunea 3.1.3), utilizând pachetul rpart. Au fost utilizate setările implicite pentru rpart, iar acești parametri au fost recomandați de Breiman și colegii săi [25]. Mai multe detalii despre acest pachet sunt furnizate în altă parte [28]. Apoi am creat subgrupuri care se exclud reciproc în eșantionul de formare pe baza rezultatelor CART. Analizele descriptive au fost efectuate în SAS (versiunea 9.3, SAS Institute, Inc., Cary, NC, SUA) cu eșantionul de instruire pentru a determina dacă factori suplimentari au fost asociați în mod unic cu diferitele subgrupuri. Datorită dimensiunii mari a eșantionului, am fost dubioși să interpretăm valorile P; prin urmare, semnificația a fost determinată de varianța unică explicată de variabilele predictive (folosind R 2 sau Cramer’s V). Ca regulă generală, proporția de varianță reprezentată de variabila predictor trebuia să fie de cel puțin 1%.

Predicțiile modelului CART identificate din eșantionul de instruire au fost apoi evaluate cu subeșantionul 2 (în continuare, cunoscut sub numele de eșantion 1 de validare a exploatării datelor) pentru a examina robustețea modelului. Zona de sub curba caracteristică de funcționare a receptorului (ASC) a fost utilizată pentru a evalua acuratețea arborelui de clasificare cu eșantionul de validare a extragerii de date 1. Evaluarea ulterioară a fost efectuată cu subșantionul 3 (în continuare, cunoscut sub numele de eșantionul de validare a extragerii de date 2) și AUC a fost, de asemenea, obținută cu acest submostru. Analizele ASC au fost efectuate în R (versiunea 3.1.3), utilizând pachetul pROC. Mai multe detalii despre acest pachet sunt furnizate în altă parte [29]. Codul adnotat cu privire la aceste analize poate fi găsit aici: https://github.com/kayserra/sample_code. În scopuri exploratorii, am aplicat și metode CART cu eșantionul de validare a extragerii de date 2. Am modificat setările implicite pentru parametrul de complexitate (adică un criteriu care ia în considerare consecințele clasificării greșite) la 0,001 față de 0,01 și numărul minim de observații din un nod pentru a calcula o împărțire, precum și nodul terminal la 3000 (1% din eșantion) față de valoarea implicită de 20 și respectiv 7.

Rezultate

Proba analitică

Criteriile de curățare și excludere a datelor aplicate celor 3 subprobe au dus la următoarele probe analitice: n = 324.649 pentru subproba 1, n = 324.063 pentru subproba 2 și n = 323.975 pentru subproba 3 (diagrama fluxului de date prezentată în Figura 1).