Abstract

fundal

În ultimul deceniu a existat un număr tot mai mare de literatură despre modul în care Nomenclatura sistematizată a termenilor clinici de medicină (SNOMED CT) poate fi implementată și utilizată în diferite setări clinice. Cu toate acestea, pentru cei însărcinați cu încorporarea SNOMED CT în aplicațiile clinice și sistemele de vocabular ale organizației lor, există puține instrucțiuni detaliate de codificare și exemple disponibile pentru a arăta cum se poate face acest lucru și problemele implicate. Această lucrare descrie o metodă euristică care poate fi utilizată pentru a codifica termeni clinici în SNOMED CT și o ilustrare a modului în care a fost aplicată pentru a codifica un set de date de îngrijire paliativă existent.

Metode

Procesul de codificare implică: identificarea elementelor de date de intrare; curățarea elementelor de date; codificarea articolelor de date curățate; și exportarea termenilor codificați ca seturi de termeni de ieșire. Sunt produse patru ieșiri: setul de referință SNOMED CT; set de terminologie a interfeței; Set de extensii SNOMED CT și set de termeni necodificabili.

Rezultate

Baza de date originală de îngrijire paliativă conținea 211 elemente de date, 145 valori codificate și 37.248 valori de text liber. Am putut codifica

84% din termeni, altul

8% necesită codificare și verificare suplimentară, în timp ce termenii care aveau o frecvență mai mică de cinci nu erau codați (

Concluzii

Din pilot, s-ar părea că metoda noastră de codificare SNOMED CT are potențialul de a deveni o abordare de codificare a terminologiei cu scop general, care poate fi utilizată în diferite sisteme clinice.

fundal

Această lucrare descrie o metodă euristică care poate fi utilizată pentru a codifica termeni clinici în SNOMED CT și o ilustrare a modului în care a fost aplicată pentru a codifica un set de date de îngrijire paliativă existent. Metoda de codificare a fost dezvoltată pentru prima dată ca parte a unui proiect de masterat și de atunci a fost extinsă prin mai multe studii la scară mică cu diferite seturi de date clinice [7] și alte analize nepublicate. Această metodă a fost perfecționată în continuare printr-un proiect-pilot de un an pentru a codifica termenii clinici dintr-un sistem existent de informații de îngrijire paliativă într-o organizație canadiană de asistență medicală în SNOMED CT.

Contextul proiectului

Scopul proiectului, „Un sistem de informații bazat pe standarde de îngrijire paliativă (PCIS) pentru serviciile de sănătate din Alberta, zona Edmonton”, a fost de a explora adoptarea, utilizarea și impactul SNOMED CT. Obiectivele includeau crearea unui subset de îngrijire paliativă SNOMED CT, îmbunătățirea PCIS cu SNOMED CT și determinarea impactului asupra calității îngrijirii, inclusiv satisfacția clinicianului și procesele de management al schimbărilor. Deoarece nu am avut o listă predefinită de termeni pentru codificare cu SNOMED CT, o parte a procesului de dezvoltare a subsetului de îngrijire paliativă a fost explorarea elementelor de date din PCIS care ar putea fi codificate cu SNOMED CT. Deoarece detaliile proiectului pilot sunt publicate în altă parte, această lucrare se concentrează doar pe descrierea metodei de codificare care a fost utilizată pentru a obține subsetul de îngrijire paliativă. Acest proiect a avut aprobarea de etică atât a Regiunii de sănătate a capitalei Edmonton - Health Research Ethics Board (Health Panel, protocol Pro00005461), cât și a University of Victoria Human Ethics Board (protocol 09-182).

Schemele bazei de date, codurile permise și intrările anonimizate cu text liber au fost extrase din PCIS. PCIS are două câmpuri de date, „diagnostic” și „problemă la recomandare”, care sunt utilizate pentru a codifica rezultatele clinice ale pacienților. Există 20 de diagnostice predefinite și 14 probleme predefinite la recomandare care ar putea fi selectate dintr-o listă de selecție. Șaisprezece dintre diagnostice se referă la categorii de cancer (de exemplu, "os și țesut conjunctiv", "melanom" și "ochi, creier și alte părți ale sistemului nervos central") în timp ce patru se referă la categorii non-canceroase (de exemplu, neuromusculare, cardiopulmonare), boli infecțioase și altele). Problema predefinită la sesizare include constatări precum „durere”, „delir”, „greață/vărsături” și „astenie”. Orice detalii suplimentare au fost înregistrate în câmpurile de text liber etichetate ca informații suplimentare. Întrucât au existat doar 34 de articole de listă de selecție predefinite, marea majoritate a acestor informații au fost înregistrate ca text liber. O mostră de captură de ecran a PCIS este prezentată în Figura 1. Pentru acest pilot, a fost utilizată versiunea de lansare internațională 31 iulie 2008 a SNOMED CT.

metodă

Captură de ecran a ecranului „Detaliu de caz” al sistemului informațional de îngrijire paliativă.

Metodă

Metoda noastră euristică de codificare CT SNOMED are patru părți: (a) identificarea elementelor de date de intrare; (b) curățarea elementelor de date; (c) codificarea elementelor de date curățate; și (d) exportul termenilor codificați ca seturi de termeni SNOMED CT. O imagine de ansamblu a acestei metode este prezentată în Figura 2. Trei instrumente software sunt utilizate în procesul de codificare - un algoritm de potrivire a loturilor, CliniClue Browser și Microsoft Excel. Algoritmul de potrivire a lotului reduce cantitatea de lucru manual prin automatizarea potrivirii articolelor de date curățate cu SNOMED CT, browserul CliniClue este utilizat pentru a căuta manual concepte, în timp ce Microsoft Excel este utilizat pentru a vizualiza rezultatele.

O prezentare generală a metodei de codare SNOMED CT.

Identificarea elementelor de date de intrare

Identificarea elementelor potențiale de date care trebuie codificate

Primul pas este identificarea potențialelor elemente de date din sursa bazei de date pentru codificare. Există trei tipuri: elemente de date, valori codificate și valori de text liber. Elementele de date se referă la numele câmpurilor de intrare sau pot fi considerate ca o întrebare (de exemplu, „Diagnostic”, ca în „Care este diagnosticul pacientului?”). Răspunsul poate lua forma valorilor codificate sau a valorilor textului liber. Valorile codificate sunt răspunsuri care au fost predefinite și pot fi selectate dintr-o listă de selecție (de exemplu, „Cancer pulmonar” sau „Cancer mamar”). Dacă un pacient are un diagnostic care nu a fost predefinit, detaliile suplimentare de diagnostic pot fi înregistrate într-un câmp de text liber.

Pregătirea listei de elemente de date

La extragerea articolelor de date, este important să păstrăm o urmă de audit a articolelor de date pentru a ne permite să urmărim de unde provin termenii. Această pistă de audit trebuie să includă numele tabelului, numele elementului de date, tipul de date, precum și codul și descrierea, dacă este cazul. Capturile de ecran ale aplicației în care este utilizat elementul de date ar fi, de asemenea, utile pentru a înțelege contextul în care este utilizat.

Extragerea elementelor de date

Numele elementelor de date pot fi extrase manual vizualizând schema bazei de date și copiind numele fiecărui element de date sau utilizând o aplicație software de gestionare a bazei de date pentru a exporta schema într-un fișier text sau foaie de calcul. Elementele de date dintr-o bază de date pot fi clasificate ca fiind cele referitoare la întâlnirile clinice, identificatorii sau pista de audit. Întâlnirile clinice se referă la elemente de date precum numele pacientului, diagnosticul și sexul. Identificatorii se referă la elemente de date care sunt de obicei cheile primare sau străine ale tabelelor. Traseul de audit se referă la elemente de date, cum ar fi informațiile despre contul de utilizator, jurnalele de audit pe care a adăugat sau editat o înregistrare și când a fost modificată. Pista de audit se poate referi, de asemenea, la elemente de date, cum ar fi starea unei valori codificate, indiferent dacă este activă sau nu. Este puțin probabil ca identificatorii și elementele de date ale pistelor de audit să poată fi codate, deoarece SNOMED CT nu a fost conceput în acest scop.

Extragerea valorilor codificate

Valorile codificate sunt în general stocate în tabelele de căutare. Aceste căutări sunt de obicei tabele externe în baza de date și sunt separate de aplicație, deși există cazuri în care valorile codificate sunt încorporate în software-ul în sine. Dacă valorile codificate sunt încorporate în codul programului, poate fi necesar să copiați manual fiecare valoare codificată dacă software-ul nu include o caracteristică de export. Pentru tabelele de căutare care sunt înregistrate în baza de date, în funcție de proiectarea acesteia, valorile codificate pot fi înregistrate într-un singur tabel sau valorile codificate pentru fiecare element de date pot fi în tabele individuale. Atunci când extrageți valori codate, este important să faceți distincția între cod (adică valoare) și descrierea codului (adică semnificația valorii). De exemplu, „Bărbat” este o descriere a codului și poate fi reprezentat cu codul alfabetic „M” sau un cod numeric, cum ar fi 1. Când codificați termenii în SNOMED CT, descrierea codului ar trebui utilizată, dar este important să puteți conectați descrierea codului înapoi la cod. Codificarea valorilor codate cu SNOMED CT poate fi considerată o formă de mapare.

Extragerea valorilor textului liber

Primul pas în extragerea valorilor textului liber este identificarea tabelului sursă și a numelui elementului de date. Nu toate elementele de date cu text liber ar trebui extrase. De exemplu, valorile textului liber din elemente de date precum nume și adrese nu trebuie extrase deoarece nu pot fi codate în SNOMED CT. Utilizatorii ar trebui să parcurgă înregistrările pentru a determina ce date sunt conținute într-un element de date, deoarece este posibil să nu fie evident uitându-se doar la numele elementului de date. Odată ce elementul de date a fost identificat, termenii unici ar trebui extrasi și frecvențele lor tabelate. Deținerea acestor informații este importantă, deoarece ar trebui depus un efort mai mare în termeni care apar frecvent.

Colectarea elementelor de date

Odată ce elementele de date au fost identificate și extrase din diverse surse de date, acestea ar trebui colectate și sortate în funcție de frecvență. Deoarece curățarea și codificarea datelor sunt procese care consumă mult timp, termenii ar trebui grupați în loturi în funcție de frecvență, astfel încât să poată fi petrecut mai mult timp cu termenii care apar frecvent. Nu este necesar să curățați fiecare termen înainte de a trece la pasul de codificare, deoarece curățarea datelor poate fi un proces care necesită mult timp. Comenzile rapide și lecțiile învățate dintr-un lot anterior ar trebui aplicate rundei următoare pentru a îmbunătăți procesul.

Curățarea elementelor de date

Procesul de curățare a datelor asigură coerența și exactitatea elementelor de date. Odată ce acești termeni sunt curățați, aceștia reprezintă în esență o terminologie a interfeței, care ajută la „susținerea interacțiunilor dintre furnizorii de asistență medicală și aplicațiile bazate pe computer”. [8] Cele trei tipuri de articole de date necesită diferite măsuri de curățare a datelor. Valorile codificate necesită o curățare minimă, deoarece au fost deja verificate de organizație înainte de a fi adăugate ca elemente de listă. Pe de altă parte, valorile textului liber necesită cea mai mare curățare, deoarece deseori nu există restricții cu privire la ceea ce poate fi înregistrat. Elementele de date care trebuie codificate necesită, de asemenea, o anumită curățare, deoarece numele elementelor de date pot utiliza abrevieri sau acronime sau, dacă sunt utilizate mai multe cuvinte, spațiile sunt eliminate sau punctele de subliniere sunt folosite pentru a separa cuvintele. În timpul curățării elementelor de date, este important să mențineți o pistă de audit pentru a le putea lega înapoi la termenul inițial. Vedeți Figura 3 pentru o prezentare generală a procesului de curățare.

O prezentare generală a procesului de curățare a datelor cu exemple.

Împărțirea elementelor de date

Filtrarea tipurilor de date

SNOMED CT este conceput pentru a codifica întâlniri clinice, dar nu și alte tipuri de date, cum ar fi nume, date, numere și măsurători. Deși o dată exactă dintr-o evidență a pacientului nu poate fi codificată cu SNOMED CT, este posibilă codificarea termenului ca istoric medical trecut. Deși nu a fost posibilă codificarea datei exacte, cum ar fi „1 ianuarie 1880”, este posibilă codificarea datei ca istoric medical trecut prin setarea „408731000 | Context temporal (atribut) |” ca "410513005 | În trecut (valoarea calificativului) |". Decizia de a codifica datele ca antecedente medicale anterioare va trebui luată individual de fiecare organizație.

Ca atare, aceste tipuri de date ar trebui să fie filtrate și să nu facă parte din lista potențială de termeni care trebuie codați. Datele care sunt excluse ar trebui păstrate ca parte a informațiilor de proveniență. Deși tipurile de date excluse nu pot fi codate în SNOMED CT, poate fi posibilă codificarea acestora utilizând un model de informații, cum ar fi Modelul de informații de referință al HL7. Împărțirea termenilor și filtrarea tipurilor de date pot necesita mai multe runde pentru a filtra toți termenii necorespunzători.

Corecții ortografice

Una dintre principalele obstacole în calea potrivirii lexicale este greșelile de ortografie. Toate cele trei tipuri de elemente de date ar trebui să fie supuse unui algoritm de corectare a ortografiei. Un index al cuvintelor găsite în elementele de date, valorile codificate și valorile textului liber pot fi generate și comparate cu indexul cuvintelor găsite în SNOMED CT. O simplă comparație a acestor indici poate restrânge rapid cuvintele potențial problematice. Elementele de date de multe ori nu conțin spații în numele lor sau punctele de subliniere sunt folosite pentru a separa cuvintele. De exemplu, elementul de date „Prenume” poate fi etichetat „FName”, „Prenume” sau „Prenume”. Aceste forme vor reduce probabilitatea de a găsi o potrivire lexicală.

acronime si abrevieri

Utilizarea inconsecventă a abrevierilor și acronimelor diminuează, de asemenea, potrivirea lexicală de succes. De exemplu, „ca” poate însemna „cancer”, „carcinom” sau chiar „calciu”. Organizațiile pot utiliza abrevieri și acronime care sunt înțelese doar local. Este necesar să se precizeze toate abrevierile și acronimele pentru a elimina orice ambiguitate, precum și pentru a îmbunătăți șansele de a găsi potriviri lexicale.

Deducerea contextului clinic

Terminologia interfeței inițiale

Termenii curățați sunt apoi denumiți o terminologie a interfeței „inițiale”, deoarece sunt alcătuite din termenii originali curățați din baza de date locală care urmează să fie codați în SNOMED CT. După procesul de codificare, vom obține o terminologie a interfeței „finale” care conține toți termenii preferați folosiți de medici în introducerea datelor. Acești termeni preferați pot include termenii locali curățați (cu condiția ca procesul de curățare să asigure că termenii pot fi convertiți sau standardizați dincolo de organizația locală) sau termenii preferați/sinonimi SNOMED CT codificați în funcție de preferința clinicianului. Dacă intenția este de a înlocui toți termenii locali cu conceptele SNOMED CT din sistemul clinic, atunci această terminologie a interfeței poate servi ca un indice istoric pentru a facilita tranziția.

1.1 Codificarea elementelor de date curățate

Următorul pas este procesul de codificare. Figura 4 prezintă acest proces într-o diagramă. Primul pas este de a localiza o potrivire lexicală printr-un mod batch. Dacă se găsește o potrivire și conceptul este activ, termenul poate fi codat cu un concept pre-coordonat. Dacă conceptul este inactiv, se va încerca localizarea unui concept activ (adică, statutul conceptului „curent”) prin relații istorice. Dacă nu se găsește nicio potrivire folosind modul batch, se va face o căutare manuală. În cazul în care termenul nu poate fi asociat utilizând un concept pre-coordonat, se va încerca să se reprezinte termenul cu mai multe concepte sau post-coordonare. Dacă nicio expresie post-coordonată nu poate reprezenta în mod adecvat termenul, acesta este considerat incodabil.

O diagramă a procesului de codificare.

Corelarea lexicală a termenilor

Corelarea lexicală a șirurilor este metoda noastră de localizare a conceptelor SNOMED CT. Există doi pași implicați. În primul rând este un mod lot în care elementele de date sunt potrivite automat folosind un algoritm de potrivire lot. Al doilea este un mod manual, în care toți termenii de neegalat remarcabili sunt asortați manual cu ajutorul browserului CliniClue.

Modul lot

Scopul utilizării unui algoritm de potrivire a lotului este de a raționaliza procesul de localizare a conceptelor potențiale SNOMED CT, deoarece căutarea manuală a fiecărui termen este un proces care necesită mult timp. Toate rezultatele algoritmului de potrivire a lotului trebuie revizuite manual pentru a se asigura că sunt selectate conceptele adecvate.

Mod manual

Termenii care nu pot fi codați folosind modul batch sunt căutați manual cu ajutorul browserului CliniClue. Când se efectuează o căutare manuală, sinonimele și alte fraze sunt adesea folosite în încercarea de a găsi concepte relevante SNOMED CT. De exemplu, SNOMED CT nu include un concept pentru „non-melanom al pielii”. Alte sinonime sau termeni mai generali, cum ar fi "tulburare a pielii", "lentigo", "nev melanocitar dobândit" pot fi folosiți în schimb. Dacă nu se poate găsi un concept pre-coordonat, se va încerca post-coordonarea.

Orientări generale pentru selectarea conceptelor din ierarhii

Relații istorice

Relațiile istorice din SNOMED CT sunt utilizate pentru a relaționa conceptele inactive cu conceptele active. Există șase relații istorice: "149016008 | POATE FI A (atribut) |", "384598002 | MOVED FROM (atribut) |", "370125004 | MUTAT ÎN (atribut) |", "370124000 | ÎNLOCUIT DE (atribut) |", "168666000 | SAME AS (attribute) |" și „159083000 | WAS A (atribut) |”. În potrivirea lexicală, toate conceptele sunt căutate indiferent de statutul conceptului. Atunci când se recuperează un concept inactiv, relațiile istorice pot indica un concept activ. Dacă un concept recuperat este inactiv, relațiile istorice sunt utilizate pentru a localiza un concept activ. Rezultatele algoritmului de potrivire a loturilor trebuie verificate manual pentru a se asigura că sunt selectate conceptele adecvate.

Condiții pre-coordonate

Există cazuri în care un concept SNOMED CT reprezintă mai multe descoperiri. Un exemplu este „greață și vărsături”. În timp ce termenul ar putea fi împărțit în doi termeni atomici separați și ar putea fi codificat separat ca „422587007 | Greață (constatare) |” și "422400008 | Vărsături (tulburări) |", există un singur concept în SNOMED CT "16932000 | Greață și vărsături (tulburare) |". Ori de câte ori este disponibil un concept pre-coordonat, aceasta ar trebui să fie prima alegere. Dacă conceptul pre-coordonat este un concept primitiv, o alternativă este crearea unei expresii post-coordonate pentru a se asigura înregistrarea semanticii necesare. Motivul este că termenii codați cu concepte primitive sunt mai dificil de interogat și testat pentru echivalență.

Termeni post-coordonați

Termeni necodificabili

Dacă niciun concept pre-coordonat sau expresie post-coordonată nu poate reprezenta în mod adecvat un element de date și dacă nu există dorința de a crea nicio extensie, termenul respectiv este marcat ca neîncodabil.

Exportarea termenilor codați ca seturi de termeni SNOMED CT

Odată ce toți termenii au trecut prin procesul de codificare, aceștia pot fi clasificați ca termeni codificați și necodificați. Termenii codificați sunt apoi utilizați pentru a genera un set de referință SNOMED CT și terminologia interfeței „finale”. Termenii necodificați care apar frecvent, dar nu au echivalent SNOMED CT pot fi supuși includerii într-o versiune viitoare a SNOMED CT prin intermediul setului de extensii SNOMED CT. Alți termeni necodificați care apar rar pot fi clasificați ca un set de termeni necodificabili dacă nu trebuie să fie prezentați ca parte a setului de extensii. Un rezumat al tipurilor de ieșiri de codificare din procesul de curățare a datelor este prezentat în Figura 5.

Tipurile de ieșiri de codificare din procesul de curățare a datelor.