Adăugați la Mendeley

Repere

Normalizarea tulburărilor în textul clinic are aplicații pe scară largă.

Normalizatorii clinici trebuie să gestioneze formatarea ad-hoc, jargonul și acronimele ambigue.

Vocabularul tulburărilor este mai bogat în text clinic decât rezumatele biomedicale.

Normalizarea cu învățarea în perechi a clasificării gestionează vocabularul bogat.

Îmbunătățirile suplimentare de normalizare necesită o recunoaștere îmbunătățită a entității denumite.

Abstract

fundal

Identificarea variabilelor cheie, cum ar fi tulburările din narațiunile clinice din dosarele medicale electronice, are aplicații pe scară largă în practica clinică și în cercetarea biomedicală. Cercetările anterioare au demonstrat o performanță redusă a tulburării numite recunoaștere entitate (NER) și normalizare (sau fundamentare) în narațiunile clinice decât în ​​publicațiile biomedicale. În această lucrare, ne propunem să identificăm cauza acestei diferențe de performanță și să introducem soluții generale.

Metode

Folosim proprietăți de închidere pentru a compara bogăția vocabularului din textul narativ clinic cu publicațiile biomedicale. Abordăm atât tulburarea NER, cât și normalizarea folosind metodologii de învățare automată. Metodologia noastră NER se bazează pe câmpuri aleatorii condiționate cu lanț liniar, cu o abordare bogată a caracteristicilor și introducem mai multe îmbunătățiri pentru a spori cunoștințele lexicale ale sistemului NER. Metoda noastră de normalizare - niciodată aplicată anterior datelor clinice - folosește învățarea în perechi pentru a clasa pentru a învăța automat variația termenului direct din datele de instruire.

Rezultate

Constatăm că, deși dimensiunea vocabularului general este similară între narațiunea clinică și publicațiile biomedicale, narațiunea clinică folosește o terminologie mai bogată pentru a descrie tulburările decât publicațiile. Aplicăm sistemul nostru, DNorm-C, pentru a localiza mențiunile de tulburare și în narațiunile clinice din recenta sarcină eHealth ShARe/CLEF. Pentru NER (strict span-only), sistemul nostru atinge precizie = 0,797, rechemare = 0,713, scor f = 0,753. Pentru sarcina de normalizare (durată strictă + concept) se obține precizie = 0,712, rechemare = 0,637, scor f = 0,672. Îmbunătățirile descrise în acest articol măresc scorul f NER cu 0,039 și scorul f de normalizare cu 0,036. De asemenea, descriem o versiune cu rechemare ridicată a NER, care crește rechemarea de normalizare până la 0,744, deși cu precizie redusă.

Discuţie

Efectuăm o analiză a erorilor, demonstrând că erorile NER depășesc numărul erorilor de normalizare cu mai mult de 4 la 1. Abrevierile și acronimele se dovedesc a fi cauze frecvente ale erorii, pe lângă mențiuni, adnotatorii nu au putut identifica în domeniul de aplicare al vocabularului controlat.

Concluzie

Mențiunile despre tulburări din textul din narațiunile clinice utilizează un vocabular bogat care are ca rezultat o variație pe termen lung, care credem că este una dintre principalele cauze ale performanței reduse în narațiunea clinică. Arătăm că învățarea în perechi la clasare oferă performanțe ridicate în acest context și introducem mai multe îmbunătățiri lexicale - generalizabile pentru alte sarcini clinice NER - care îmbunătățesc capacitatea sistemului NER de a gestiona această variație. DNorm-C este un sistem de înaltă performanță, open source pentru tulburări în textul clinic și un pas promițător către metode NER și de normalizare care pot fi antrenate către o mare varietate de domenii și entități. (DNorm-C este un software open source și este disponibil cu un model instruit pe site-ul web demonstrativ DNorm: http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/tmTools/#DNorm.)

Abstract grafic

provocări
  1. Descărcare: Descărcați imaginea de înaltă rezoluție (150 KB)
  2. Descărcare: Descărcați imaginea la dimensiune completă

Anterior articolul emis Următorul articolul emis