Postat la 16 septembrie 2016

Analiza datelor, schemele de accidentare, triaj, despăgubirea lucrătorilor

Directorul științei datelor Inna Kolyshkina și Scheme Actuary la ReturnToWorkSA Ivan Lebedev combină forțele pentru a explica un proiect întreprins pentru a explora utilitatea capacității avansate de analiză a datelor pentru ReturnToWorkSA.

În 2014, ReturnToWorkSA a întreprins un proiect pentru a explora utilitatea potențială a capacității avansate de analiză a datelor pentru afacerea sa.

Scopul a fost de a prezice probabilitatea ca cererile să rămână în sprijinul venitului timp de un an sau mai mult de la data depunerii (în continuare, acest eveniment va fi denumit „pe termen lung”) folosind informațiile disponibile la treisprezece săptămâni de la depunere.

O altă cerință a fost ca modelul de predicție să fie ușor de interpretat de către companie.

În medie, la 13 săptămâni de la depunerea cererii, mai mult de 80% dintre reclamanți vor fi revenit la muncă. Celelalte rămase trebuie să fi avut anumite bariere care le-au împiedicat să-și revină. Aceste bariere sunt în mod obișnuit legate de severitatea stării medicale de bază, de factori psiho-sociali, cum ar fi relația cu angajatorul/locul de muncă, reziliența generală a lucrătorului etc.

La 13 săptămâni, cererile post-depunere stabilesc un istoric care include diagnostic și tratament medical, interacțiuni cu medicul de familie/specialiști, plăți de drepturi etc. Deși este posibil ca fiecare element al acestor date să nu fie deosebit de predictiv, cazul de afaceri a stabilit să verifice dacă analiza avansată a datelor ar permite identificarea tiparelor și combinațiilor care prezic în mod fiabil probabilitatea ridicată sau scăzută a unei revendicări pe termen lung.

Provocări

Evenimentul unei creanțe pe termen lung este influențat de mulți factori. Variabilitatea puternică a duratei cererii pentru un anumit tip de leziune și vârstă este ilustrată în Figura 1.

triajul

Figura 1: Analiza bidirecțională a duratei cererii în funcție de vârstă și natura prejudiciului. Curbă albastră arată modelul aditiv generalizat (GAM) încorporat în date, iar regiunea gri închis din jurul ei prezintă banda corespunzătoare a intervalului de încredere. Un grad ridicat de variabilitate pentru lucrătorii răniți de aceeași vârstă și tip de accidentare este clar vizibil.

Caracteristicile care complică în mod semnificativ modelarea rezultatelor cererii sunt raritatea datelor, multicoliniaritatea și faptul că majoritatea predictorilor potențial importanți (cum ar fi codurile TOOCS pentru natura leziunii, localizarea corpului etc.) au un număr mare de categorii.

Înfruntarea provocărilor

Sistemul TOOCS are un decalaj mare între cel mai înalt nivel (natura grupului de vătămare) și cel mai scăzut nivel (natura individuală a vătămării). Ca rezultat, unele dintre categoriile de nivel înalt sunt prea largi pentru a fi utile, în timp ce unele dintre categoriile de nivel scăzut au un suport prea mic (numărul de revendicări din setul de date). Pentru a aborda această situație, categoriile de nivel scăzut cu sprijin mare au fost ridicate în ierarhie, categoriile de nivel înalt cu sprijin mic au fost reduse și categoriile de nivel scăzut cu sprijin mic au fost amalgamate cu altele similare.

Deoarece natura leziunii și localizarea corpului se așteptau să fie printre cei mai importanți predictori ai duratei revendicării, un pas important a fost combinarea acestora într-o singură variabilă pentru a se concentra doar pe combinațiile care au avut loc în practică.

În cele din urmă, am aplicat analiza de corelație pentru a identifica grupurile de variabile care erau foarte corelate între ele; variabilele care s-au dovedit a conține informații redundante ar putea fi eliminate din analiză fără a sacrifica acuratețea sau validitatea predicției.

Dezamăgire timpurie

Pentru a evalua în mod eficient ce acuratețe s-ar putea obține cu predictorii aleși, am folosit trei metode diferite de știință a datelor cunoscute pentru extragerea valorii predictive maxime din date - Păduri aleatorii, GBM și regresie LASSO.

Rezultatele au fost consecvente pentru toate metodele utilizate și au arătat că a fost explicată doar 11-13% din variabilitatea măsurată prin măsurători echivalente R-pătrat.

Segmentările efectuate de arbori de inferență condiționată, arbori clasici de clasificare și regresie și abordare bazată pe cluster au fost consecvente în producerea a doar două segmente de revendicări principale cu o separare slabă între probabilitatea ca o revendicare să devină pe termen lung (Figura 2).

Figura 2: Segmentarea inițială a revendicărilor. Separarea între segmentele cu risc ridicat și cele cu risc scăzut este mică.

În mod clar, acest rezultat nu a îndeplinit așteptările afacerii.

1 Îmbogățirea datelor

Acest rezultat a indicat faptul că anumiți factori necunoscuți excluși din modelul inițial influențează rezultatul. Folosind contribuția IMM-urilor și cercetarea externă în predicția duratei cererii de despăgubire a lucrătorilor, am căutat apoi să îmbogățim datele cu informații suplimentare, inclusiv:
• întârzierea raportării cererilor;
• informații despre tratamentul primit (de exemplu, tipul furnizorilor vizitați, numărul de vizite, specialitatea furnizorului);
• informații cu privire la utilizarea medicamentelor și, în mod specific, dacă a fost utilizat un opioid puternic;
• informații despre istoricul revendicărilor anterioare ale reclamanților, inclusiv numărul de daune anterioare, tipul și natura prejudiciului și orice asemănare cu prejudiciul actual

A existat o creștere semnificativă a proporției de variabilitate explicată de model.
Am identificat cele mai semnificative 36 de atribute pentru clasificarea creanțelor în segmente cu risc ridicat și scăzut. Primii 12 predictori sunt prezentați în Figura 3.

Figura 3: Top 12 predictori pentru riscul ca o creanță să devină pe termen lung. Linia verde arată măsura importanței fiecărui predictor pe scara de la 0 la 100.

Construirea modelului final

Compania a cerut ca probabilitatea ca o creanță să devină pe termen lung să fie exprimată sub formă de reguli comerciale inteligibile. Pentru a realiza acest lucru, am folosit copacii de decizie în combinație cu analiza regulilor de asociere.

Modelul final permite alocarea unei creanțe la unul din cele 6 segmente prezentate în Figura 4 pe baza a 36 de caracteristici și a combinațiilor acestora.

Figura 4: Segmentarea revendicărilor după modelul final

Modelul prezintă o bună separare între segmentele cu risc ridicat (1 și 2) și cele cu risc scăzut (5 și 6). Capacitatea de a identifica în mod fiabil reclamațiile cu risc ridicat de a deveni pe termen lung are o valoare comercială clară, deoarece poate fi utilizată pentru a concentra activitatea de gestionare a cazurilor acolo unde este cel mai necesar.

Învățări cheie

Deși s-ar putea crede că metodele bazate pe arborele decizional ar putea funcționa cu date categorice brute și că algoritmul de divizare binară ar amalgama automat categorii mici în grupuri mai mari, în realitate, nu este cazul. Experiența noastră în acest proiect și în alte proiecte este că o revizuire aprofundată, curățarea și regularizarea datelor categorice este esențială pentru construirea unui model de predicție bun.

Aprecierea rolului critic al cunoștințelor de afaceri expert în obținerea unor rezultate bune a fost o altă învățare cheie. Consultând experții în materie am reușit să identificăm că istoria revendicărilor anterioare poate fi adăugată modelului. Acest lucru ne-a permis să îmbunătățim semnificativ precizia predicției.

Abordarea care a funcționat foarte bine în acest proiect a fost să se concentreze mai întâi pe obținerea unei precizii satisfăcătoare de predicție și apoi să se concentreze pe dezvoltarea modelului final care îndeplinește cerințele specifice ale afacerii. Când vizăm precizia, folosind instrumentele care extrag cea mai mare cantitate de putere predictivă din date, am putea evalua rapid potențialul predictiv inadecvat al setului de date inițial și ne putem direcționa eforturile către îmbogățirea datelor.

În etapa de dezvoltare a modelului final, aveam deja un set definit de predictori cu care să lucrăm și ne puteam concentra eforturile asupra rafinării modelului în sine. Trebuie remarcat faptul că, în funcție de cerințele afacerii, modelul final ar fi putut fi dezvoltat nu numai sub forma unor reguli de decizie, ci și în orice altă formă (de ex. GLM) cerută de companie.

CPD: Membrii Institutului Actuaries pot solicita două puncte CPD pentru fiecare oră de citire a articolelor pe Actuaries Digital.

Ivan Lebedev

Ivan Lebedev este un actuar de schemă la ReturnToWorkSA. Are mai mult de 10 ani de experiență în compensarea lucrătorilor. El este foarte interesat de diversificarea setului de instrumente actuariale tradiționale pentru a include metode moderne de știință a datelor.

Inna Kolyshkina

Inna Kolyshkina este director al științei datelor în serviciile de consultanță Analytikk. Are 20 de ani de experiență în furnizarea de informații de afaceri din date organizaționale mari specializate în asigurări și gestionarea activelor.

Comentarii

Spune Chao Qiao

Super articol! Figurile 2 și 4 par a fi aceleași, ar dori să vadă gradul de îmbunătățire de la modelul inițial la cel final.