Gorjan Popovski, Barbara Koroušić Seljak, Tome Eftimov, Corpus FoodBase: o nouă resursă de entități alimentare adnotate, Baza de date, Volumul 2019, 2019, baz121, https://doi.org/10.1093/database/baz121

corpul

Abstract

Introducere

În mineritul textului biomedical, automatizarea extracției informațiilor (IE) care vizează descoperirea relațiilor de orice tip din literatura științifică a devenit o sarcină foarte importantă. Unul dintre primii pași din IE este realizat prin recunoașterea entității denumite (NER), care localizează entitățile denumite în text pentru a fi clasificate în categorii predefinite. Metodele NER de cea mai bună performanță sunt, de obicei, bazate pe corpus (1-3), care necesită un corpus de entități adnotate de interes. Diferite corpuri adnotate au fost deja produse prin sarcini partajate, cum ar fi BioNLP (4-8) și BioCreative (9-13), unde principalul obiectiv este provocarea și încurajarea echipelor de cercetare cu privire la problemele de procesare a limbajului natural (NLP). Aceste corpuri adnotate pot fi utilizate pentru diferite scopuri de cercetare, cum ar fi extracția evenimentelor genetice, genetica cancerului, curarea căii, adnotarea corpului cu ontologie de reglare a genelor, rețelele de reglare a genelor în bacterii, biotopii bacteriilor, extragerea reglementării dezvoltării semințelor în plante, boală entități legate de simptome, relații care există între entități chimice/medicamentoase și entități de boală, metode pentru adnotări, cum ar fi boala, fenotipul și reacțiile adverse în diferite surse de text literare, extragerea informațiilor din istoricul familial și similitudinea textului semantic clinic.

Cu toate acestea, în 2019, Lancer Planetary Health a publicat că 2019 este anul nutriției, unde accentul ar trebui pus pe descoperirea relațiilor dintre sistemele alimentare, sănătatea umană și mediul înconjurător. Contrar numărului mare de corpuri adnotate disponibile cu entități din domeniul biomedical, în domeniul alimentar există un număr limitat de resurse care ar putea fi utilizate pentru cercetare.

Astăzi, există un număr mare de rețete publicate pe internet, care conțin informații valoroase despre alimente și nutriție. Cu toate acestea, din câte știm, există doar două corpuri existente de rețete adnotate: (i) corpul r-FG (graficul fluxului de rețete) (14) și (ii) corpusul CURD (baza de date a rețetelor universității Carnegie Mellon) 15 ). Corpusul r-FG este format din 266 de rețete japoneze adnotate folosind opt etichete legate de alimente, instrument, durată, cantitate, acțiunea bucătarului, acțiunea alimentelor, starea alimentelor și starea instrumentelor. Corpusul CURD este format din 300 de rețete adnotate și 350 de neanotate, pentru care Limbajul minim de instrucțiuni pentru limba bucătăriei (LAPTE) este utilizat pentru adnotare (15).

Să menționăm sistemul de analiză semantică UCREL (USAS), care este un cadru pentru analiza semantică automată a textului. Distinge între 21 de categorii majore, dintre care una este și „alimentația și agricultura” (F) (16). Mai mult, oferă informații semantice suplimentare care sunt utilizate în corpusul Hansard (17). Corpusul Hansard a fost creat recent ca parte a proiectului SAMUELS (Semantic Annotation and Mark-Up for Enhancing Lexical Searches) (18), cu scopul de a extrage discursuri (adică dezbateri digitalizate) susținute în Parlamentul britanic între 1803 și 2005.

Ca parte a activității noastre anterioare (19-20), am dezvoltat drNER, care este un sistem NER bazat pe reguli utilizat pentru IE din recomandări dietetice bazate pe dovezi, unde, pe lângă entități legate de nutriție și recomandări dietetice, entitățile alimentare erau și ale noastre interes. Cu toate acestea, drNER funcționează cu date nestructurate. În drNER, entitățile alimentare sunt extrase folosind etichetele semantice alimentare obținute prin analiza semantică UCREL la un nivel simbolic combinat cu regulile de algebră booleană pentru a defini expresii din text care sunt entități alimentare.

Deși corpurile adnotate de rețete menționate mai sus există, acestea sunt limitate. Corpusul r-FG este compus doar din rețete japoneze de mâncare, iar atât corpusul r-FG, cât și corpusul CURD utilizează scheme de adnotare care nu sunt suficient de detaliate, oferind doar o entitate alimentară generală; fără a diferi între grupurile de feluri de mâncare (de exemplu, supe, feluri de mâncare, feluri de mâncare cu ouă, ceai, cafea). De asemenea, drNER oferă doar o entitate alimentară generală, deoarece a fost dezvoltată pentru a distinge între alimente, nutrienți și cantitate/unitate. USAS poate oferi informații suplimentare despre entitatea alimentară selectată, dar limitarea sa este că funcționează la nivel de simbol. Un simbol, așa cum este definit ca o problemă în NLP, este un șir de caractere adiacente între delimitatori predefiniți (de exemplu, spații albe, punctuație). Cel mai frecvent, un singur simbol este un singur cuvânt, număr sau abreviere. De exemplu, dacă avem „pui la grătar” ca entitate alimentară care trebuie procesată pentru relațiile sale, entitățile „la grătar” și „pui” vor obține etichete semantice separate. Din aceste motive, am decis să creăm un FoodBase, care este un corpus nou care poate fi utilizat pentru extragerea automată a denumirii de entități alimentare și include entități alimentare adnotate cu etichetele semantice din corpusul Hansard.

Metode și materiale

În această secțiune, vă prezentăm modul în care a fost selectată o resursă de rețete pentru a fi utilizate pentru IE. Apoi, corpusul Hansard de etichete semantice este descris mai detaliat. Continuăm prezentând FoodIE, adică un NER bazat pe reguli (21), care este utilizat pentru structurarea rețetelor. În primul rând, îi descriem pe scurt pașii de bază și apoi ne concentrăm pe evaluarea acestuia și introducerea unui nou pas care a fost adăugat la FoodIE cu scopul adnotării semantice a entităților alimentare extrase.

Selecția rețetei

Pentru a începe crearea corpusului FoodBase cu entități alimentare adnotate, am selectat 1000 de rețete diferite din Allrecipes (22), care este cea mai mare rețea socială axată pe alimente, unde toată lumea joacă un rol în a ajuta bucătarii să descopere și să împărtășească gătitul acasă. Am selectat această rețea deoarece toată lumea poate posta rețete pe Allrecipes, deci avem o variabilitate în modul în care utilizatorii se exprimă. Rețetele au fost selectate din cinci categorii de rețete: „Aperitive/Gustări”, „Mic dejun/Prânz”, „Desert”, „Cină” și „Băuturi”, inclusiv 200 de rețete pentru fiecare categorie de rețete. Pentru fiecare rețetă, am colectat informații despre numele rețetei în limba engleză, lista ingredientelor sale și instrucțiunile de preparare în limba engleză. Lista ingredientelor consta în nume și cantități de ingrediente englezești în unități nestandardizate și măsuri de uz casnic prevăzute în limba engleză (de exemplu, „1 vinete mari, înjumătățite pe lungime”, „1 pachet (8 uncii) brânză feta mărunțită”).

Tag-uri semantice ale corpului Hansard

Pentru a adnota entitățile alimentare extrase din rețetele selectate, am folosit etichete semantice din corpusul Hansard (17). În acest corpus, etichetele semantice sunt ordonate folosind o structură ierarhică, unde alimentele sunt abordate în categoria „Mâncare și băutură” (AG). Categoria AG este împărțită în continuare în trei subcategorii: „Produse alimentare” (AG: 01), „Producția de alimente, agricultură” (AG: 02) și „Achiziționarea de animale pentru hrană, vânătoare” (AG: 03). Subcategoria „Alimente” constă din 125 de etichete semantice de nivel superior, „Producția de alimente, agricultură” constă din 36 de etichete semantice de nivel superior, iar „Achiziționarea de animale pentru hrană, vânătoare” constă din 13 etichete semantice de nivel superior. În plus față de categoria AG, am decis să folosim și categoriile „Animale” (AE) și „Plante” (AF), astfel încât orice informație lipsă (etichetă semantică) pentru o entitate alimentară care este un ingredient rețetă să poată fi căutată în AE și AF, ca parte a naturii animale sau plante, respectiv. Categoria AE constă din 15 etichete semantice, în timp ce categoria AF constă din 30 de etichete semantice. Există etichete suplimentare și mai specifice la un nivel ierarhic mai profund în cadrul unora dintre aceste etichete, care sunt, de asemenea, utilizate. Mai multe detalii despre etichetele semantice ale corpusului Hansard pot fi găsite în Hansard (17).

FoodIE: un aliment NER bazat pe reguli

Pentru a permite NER care localizează entități alimentare, am propus recent o abordare bazată pe reguli, numită FoodIE, care funcționează cu date textuale nestructurate (adică descrierea rețetei) și constă din patru pași (21):

Prelucrarea textului legat de alimente: una dintre principalele preocupări ale acestui pas este curățarea datelor textuale brute, cum ar fi eliminarea caracterelor non-standard, spațiile albe în exces și efectuarea transliterării pentru a nu confunda etichetatoarele.

Text-etichetare POS și post-procesare set de date etichetă: acest pas constă în achiziționarea datelor textuale cu etichete Part of Speech, precum și în asamblarea datelor ambelor etichetatoare pentru a crește robustețea.

Adnotarea semantică a jetoanelor alimentare din text: acesta este principalul motor de regulă al FoodIE, care utilizează un număr mic de reguli și efectuează adnotări semantice ale jetoanelor din text, clasificându-l într-una din cele patru clase care sunt utilizate în continuare pentru a efectua NER.

Recunoașterea denumirii entității alimentare: acest pas este preocupat de înlănțuirea jetoanelor adnotate semantic în bucăți alimentare care reprezintă un singur concept alimentar.

În scopul creării corpului FoodBase, am adăugat un pas suplimentar la sfârșitul conductei FoodIE:

Adnotarea semantică a entităților alimentare extrase: aici, etichetele semantice ale Hansardului sunt grupate în fiecare simbol pentru fiecare bucată alimentară, cu scopul de a reprezenta conceptul alimentar în întregime.

Diagrama metodologiei extinse este prezentată în Figura 1. Mai multe detalii despre primii patru pași au fost deja prezentați în lucrarea noastră anterioară (21); cu toate acestea, în această lucrare, ne vom concentra asupra evaluării FoodIE, deoarece acesta este pasul crucial în construirea corpusului adnotat. Un exemplu de utilizare a FoodIE pe o rețetă este explicat în (21), pas cu pas. Apoi, vom descrie noul pas al adnotării semantice a entităților alimentare extrase.

Organigrama metodologiei FoodIE extinse.

Organigrama metodologiei FoodIE extinse.

Evaluarea metodologiei FoodIE extinse

Verificarea conceptului. În primul rând, un subset de 200 de rețete din 1000 au fost procesate și evaluate. Din fiecare categorie, am selectat 40 de rețete. Mai multe detalii despre predicții sunt prezentate în (21).

Majoritatea FN-urilor sunt legate de concepte alimentare care sunt reprezentate de numele lor de marcă (de exemplu, „Snickers”, „Jim Beam”). Unele dintre ele apar, de asemenea, atunci când etichetatorul semantic clasifică incorect un indicativ în ceea ce privește contextul în care sunt menționate (de exemplu, „data” clasificată ca zi a anului, când reprezintă fructe). Mai mult, există și exemple cu unele alimente specifice legate de anumite culturi (de exemplu, „chefir”).

În cazul PC-urilor, majoritatea cazurilor sunt legate de concepte legate de alimente, dar nu de concepte alimentare de la sine. În majoritatea cazurilor, acestea sunt instrumente sau instrumente utilizate la gătit.

Al doilea proces. Odată ce eficacitatea conceptului a fost evaluată pe 200 de rețete, setul complet de 1000 de rețete a fost procesat și evaluat, iar predicțiile pentru acestea sunt prezentate în (21).

Comparând valorile de evaluare pentru 200 și 1000 de rețete prezentate în (21), putem concluziona că FoodIE se comportă consecvent. Evaluând setul de date cu 200 de rețete, care constă din 100 de rețete care au fost analizate pentru a construi motorul de regulă și 100 de rețete noi care nu au fost analizate în prealabil, am obținut o precizie de 0,9761, o rechemare de 0,9430 și un scor F1 de 0,9593. Mai mult, evaluându-l pe setul de date de 1000 de rețete noi, am obținut 0,9780 pentru precizie, 0,9437 pentru rechemare și 0,9605 pentru scorul F1. Din aceste rezultate, putem concluziona că FoodIE oferă rezultate foarte promițătoare și consistente.

Adnotarea semantică a entităților alimentare extrase

Odată ce entitățile alimentare au fost extrase folosind FoodIE, le-am adnotat pe fiecare folosind etichetele semantice furnizate de corpusul Hansard. Din acest motiv, adnotările care sunt atribuite fiecărei bucăți alimentare sunt etichetele semantice care aparțin jetoanelor din care este construită bucata. După cum am explicat anterior, aceste etichete provin doar din trei categorii generale de corpuri Hansard, adică „Mâncare și băutură” (AG), „Animale” (AE) și „Plante” (AF). Atunci când o entitate selectată recunoscută ca entitate alimentară nu poate fi adnotată cu nicio etichetă semantică din „categoria Mâncare și băutură”, se utilizează o etichetă fie din „Animale”, fie din „Plante”. Mai mult, atunci când nici o etichetă semantică nu poate fi asociată entității alimentare, aceasta este atribuită ierarhiei de nivel alimentar superior, adică „AG.01 [Alimente]”.

Exemplele includ următoarele:

„Pui la grătar” obține etichetele semantice AG.01.t.07 [Gătit] /AG.01.d.06[Păsări]

„Tortilla chips” obține AG.01.n.11 [Pâine] /AG.01.n.12[Pancake/tortilla/oatcake]

„Amestec de sos pentru salată de fermă uscată” obține AG.01.h.02 [Legume] /AG.01.m [Substanțe pentru prepararea alimentelor] /AG.01.n.09 [Legume și feluri de mâncare preparate]

„Conopida” obține AG.01.h.02.d [Varză/varză]

Evaluare manuală. Adnotările semantice obținute de FoodIE au fost evaluate manual. Entitățile alimentare raportate ca PF au fost excluse manual din corpus, în timp ce entitățile alimentare raportate ca PF au fost incluse în corpus. Acest lucru a fost făcut pentru a obține un set de date de referință bun, care conține toate entitățile alimentare care sunt prezente în setul de date de 1000 de rețete selectate aleatoriu din cinci categorii principale de feluri de mâncare. Mai mult, în afară de excluderea FP-urilor și a FN-urilor, etichetele semantice adnotate au fost verificate dublu. În timpul acestui proces, toate etichetele semantice incorecte au fost eliminate, în timp ce toate etichetele semantice lipsă au fost adăugate unor entități alimentare specifice.

Format adnotare. Am decis să adnotăm informațiile extrase folosind formatul BioC (23), care a fost propus inițial de instrumente NLP biomedicale și de extragere a textului. Este un format simplu bazat pe XML care vizează partajarea de date și adnotări de text, cu obiectivele de simplitate, interoperabilitate și utilizare și reutilizare pe scară largă. În Figura 2, o rețetă selectată este prezentată în format BioC.

Rețetă adnotată din categoria „Aperitive și gustări” prezentată în format BioC. Pentru rețeta prezentată în această figură, sunt prezentate toate conceptele de alimente extrase, împreună cu etichetele semantice respective și locația lor în textul rețetei brute.

Rețetă adnotată din categoria „Aperitive și gustări” prezentată în format BioC. Pentru rețeta prezentată în această figură, sunt prezentate toate conceptele de alimente extrase, împreună cu etichetele semantice respective și locația lor în textul rețetei brute.

Pentru a evalua rezultatele, am selectat trei tipuri standard de potriviri: pozitive adevărate (TP), negative negative (FN) și false pozitive (FP), precum și tipul de potrivire „Parțial (neconcludent)” menționat anterior. Rezultatele din numărarea instanțelor fiecărui tip de meci sunt prezentate în Tabelul 1. Este important de reținut că nu toate ontologiile au furnizat adnotări pentru fiecare rețetă. Mai precis, din 1000 de rețete, SNOMED CT a ratat 6, OntoFood a ratat 71 și FoodON a ratat 5. În continuare, vom explica rezultatele pentru fiecare meci.

Rezultate din compararea diferitelor metode NER în domeniul alimentar