Am participat la workshopul i2b2 Obesity Challenge în weekend, unde sistemele cu cele mai bune performanțe din toate valorile erau în principal sisteme bazate pe reguli construite manual. Ziarele mi-au dat un sentiment de deja vu; nu au fost construite doar la fel ca sistemele expert din anii 1970 (cum ar fi Mycin), ci au fost motivate de dorința unor concluzii explicabile. Adică, un clinician va trebui să verifice rezultatele aparatului, iar regulile sunt ușor de înțeles.

provocarea

Sarcina a fost de a clasifica (anonimizate) rezumate ale externării pacienților din Centrul de Greutate al Spitalului General Massachussetts pentru pacienții cu risc de obezitate sau diabet, dacă aceștia erau de fapt obezi și dacă aveau alte 15 comorbidități, cum ar fi diabetul, boala coronariană, congestivele. insuficiență cardiacă, gută și apnee în somn. Aceste rezumate de descărcare de gestiune sunt lungi de sute de propoziții și discută despre toate, de la istoricul familial și istoricul medical al pacientului la rapoartele de teste de laborator și listele de prescripții.

Cele mai performante sisteme de învățare automată care au tratat documentele ca niște simple pungi de cuvinte au învățat reguli precum Ripper și copacii de decizie. Clasificatorii liniari s-au comportat cel mai bine folosind primele câteva caracteristici (de obicei extrase prin măsurarea câștigului de informații, care este entropia de clasificare minus entropia condițională dată fiind caracteristica).

În ceea ce privește extragerea caracteristicilor și analiza documentelor, zonarea a ajutat cu adevărat. Secțiunea de istorie familială (destul de ușor extrasă în aceste date) a fost o sursă comună de fals-pozitive pentru bolile pentru sistemele naive. Al doilea pas important a fost importul dicționarelor de sinonime și abrevieri pentru medicamente și boli. Am văzut o mulțime de utilizare a resurselor precum UMLS și RxNorm pentru asta. Având în vedere că sarcina avea categorii da/nu/necunoscute, toată lumea se aștepta ca abordări precum ChapEx NegEx să aibă un impact mai mare decât au avut (deși o echipă a obținut mai mult kilometraj personalizând NegEx cu un dicționar specializat pentru sarcina obezității).

Toate acestea indică diferența dintre această sarcină și alte sarcini de clasificare, cum ar fi sentimentul general, subiectul, identificarea limbajului - este mai mult o problemă de extragere a informațiilor decât o problemă de clasificare a textului complet. În acest sens, este ca extragerea sentimentului orientată spre aspect.

Acest lucru împiedică tendința predominantă în câmpul în care au fost construiți câștigători recenți în urma unui program în trei pași:

1. colectează și adnotați date,

2. extrage caracteristici cu un sistem bazat pe reguli pentru a crea o reprezentare vectorizată a unui document, atunci

3. potrivi unul sau mai mulți clasificatori liniari discriminativi (de exemplu, SVM-uri, regresie logistică sau perceptroni).

Aceasta este o metodă hibridă, care subminează cu adevărat toate pretențiile de automatizare de la mulțimea de învățare automată. Poate de aceea toți sunt atât de obsedați de adaptare și învățare semi-supravegheată în zilele noastre. În același timp, toate sistemele bazate pe reguli s-au bazat puternic pe etapa de colectare a datelor pentru a-și regla regulile.

În mod clar, niciuna dintre intrările bazate pe învățarea automată (inclusiv a noastră) nu a petrecut aproape suficient timp pe extragerea caracteristicilor. MITRE și Mayo Clinic au valorificat sistemele existente de extracție și normalizare ale entității Mayo, iar rezultatele au fost destul de bune, deși nu au avut timp să personalizeze resursele mult pentru provocare (cunoștințele necesare au fost destul de profunde și largi, deși așa cum a subliniat o echipă afară, complet accesibil pe web prin căutări de cuvinte cheie).

De asemenea, i-am sugerat lui Özlem Uzuner (organizatorul de provocări) să putem rula aceeași sarcină anul viitor cu o altă trecere a datelor de către adnotatori (calul meu actual de hobby!). Una dintre durerile uriașe pentru acest tip de evaluare este spălarea pentru anonimat, ceea ce face problematică sarcinile semi-supravegheate mari. Este, de asemenea, dificil să obțineți un acord standard de aur bun și să ajungeți la un standard de codare consistent, cu doar o pereche de adnotatoare și un break-break într-o singură trecere. Mi-ar plăcea să am șansa să iau caracteristicile sistemelor câștigătoare și să realizez pasul (2). Nu o pot face acum, pentru că a trebuit să distrugem toate datele după atelier din motive de confidențialitate și răspundere.

Spitalul pentru copii din Cincinnati a reușit să publice datele lor de codare ICD-9-CM, ceea ce am spus că este destul de remarcabil. Provocarea lor medicală NLP de a efectua codificarea ICD-9 a rapoartelor de radiologie a arătat un model similar de rezultate cu provocarea obezității i2b2, cu excepția intrării UPenn, care s-a clasat pe locul al doilea după metdologia de mai sus.

Dacă vă interesează cum am făcut-o, ne-am aflat în mijlocul pachetului de 28 de sisteme. Câteva trucuri rapide și murdare de extragere a caracteristicilor pentru asocierea termenilor și bolilor medicamentelor și pentru a distribui negarea au ajutat puțin, la fel ca și utilizarea câștigului de informații pentru a selecta caracteristicile înainte de antrenament cu regresie logistică regularizată L1.