Simon Mezgec

1 Școala Internațională Postuniversitară Jožef Stefan, Ljubljana, Slovenia,

mixtă

2 Departamentul de sisteme informatice, Institutul Jožef Stefan, Jamova cesta 39, Ljubljana 1000, Slovenia,

Tome Eftimov

1 Școala Internațională Postuniversitară Jožef Stefan, Ljubljana, Slovenia,

2 Departamentul de sisteme informatice, Institutul Jožef Stefan, Jamova cesta 39, Ljubljana 1000, Slovenia,

Tamara Bucher

3 Institutul de Alimentație, Nutriție și Sănătate (IFNH), ETH Zurich, Zurich, Elveția,

4 Școala de Științe ale Sănătății, Facultatea de Sănătate și Medicină, Centrul de cercetare prioritară în activitate fizică și nutriție, Universitatea din Newcastle, Callaghan, Australia,

Barbara Koroušić Seljak

2 Departamentul de sisteme informatice, Institutul Jožef Stefan, Jamova cesta 39, Ljubljana 1000, Slovenia,

Abstract

Obiectiv

Prezentul studiu a testat combinația dintre o metodă de cercetare stabilită și una validată de alegere a alimentelor („bufetul fals de alimente”) cu o nouă tehnologie de potrivire a alimentelor pentru a automatiza colectarea și analiza datelor.

Proiecta

Metodologia combină recunoașterea imaginii fals-alimentare folosind învățarea profundă și potrivirea alimentelor și standardizarea bazată pe procesarea limbajului natural. Primul este specific deoarece folosește o singură rețea de învățare profundă pentru a efectua atât segmentarea, cât și clasificarea la nivelul pixelilor imaginii. Pentru a evalua performanța sa, au fost aplicate măsuri bazate pe precizia standard a pixelilor și intersecția peste Uniune. Potrivirea alimentelor descrie mai întâi fiecare dintre produsele alimentare recunoscute din imagine și apoi se potrivește produsele alimentare cu datele lor compoziționale, luând în considerare atât numele lor, cât și descriptorii lor.

Rezultate

Acuratețea finală a modelului de învățare profundă instruit pe imagini cu alimente false dobândite de 124 de participanți la studiu și care a furnizat cincizeci și cinci de clase de alimente a fost de 92 · 18%, în timp ce potrivirea alimentelor a fost efectuată cu o precizie de clasificare de 93%.

Concluzii

Descoperirile prezente sunt un pas către automatizarea evaluării dietetice și a cercetării alegerii alimentelor. Metodologia depășește alte abordări în ceea ce privește precizia pixelilor și, din moment ce este prima soluție automată pentru recunoașterea imaginilor cu alimente false, rezultatele ar putea fi utilizate ca bază pentru eventuale studii viitoare. Deoarece abordarea permite o descriere semi-automată a produselor alimentare recunoscute (de exemplu, în ceea ce privește FoodEx2), acestea pot fi legate de orice bază de date de compoziție alimentară care aplică același sistem de clasificare și descriere.

Măsurarea comportamentului alimentar folosind tehnologii tradiționale, neautomatizate, de auto-raportare este asociată cu costuri considerabile, ceea ce înseamnă că cercetătorii au fost interesați în mod special de dezvoltarea unor abordări noi, automatizate. Există o nevoie clară în evaluarea dietei și a sistemelor de îngrijire a sănătății de dispozitive ușor de utilizat și soluții software care pot identifica alimentele, cuantifica aportul, înregistra comportamentul și respectarea sănătății și măsura contextele alimentare. Scopul prezentului studiu a fost de a testa combinația dintre o metodă de cercetare stabilită și validată, „bufetul fals de alimente” (FFB), cu o nouă tehnologie de potrivire a alimentelor pentru a automatiza colectarea și analiza datelor.

FFB a fost dezvoltat ca o metodă experimentală pentru a studia alegerea alimentelor complexe, compoziția mesei și alegerea porțiunii în condiții de laborator controlate. FFB este o selecție de articole alimentare foarte autentice, dintre care consumatorii sunt invitați să aleagă. Metoda FFB a fost validată printr-o comparație a meselor servite din alimente reale și false (1). Porțiile de alimente servite din alimentele false s-au corelat îndeaproape cu porțiile servite din alimentele reale (1). În plus, corelații semnificative între nevoile de energie ale participanților și cantitățile servite au fost găsite în mai multe studii (1 - 4). De asemenea, s-a demonstrat că persoanele care au selectat alimente pentru o zi întreagă dintr-un FFB au putut să se potrivească îndeaproape cu cerințele lor alimentare (5) .

Într-un studiu tipic FFB, experimentatorii aleg alimente false și organizează un bufet. Participanții primesc instrucțiuni, care pot conține intervenția experimentală, și sunt apoi invitați să selecteze alimente, să aleagă porții de alimente pentru asamblarea meselor (2, 3) sau chiar să stabilească o dietă pentru o zi (5). Experimentatorul analizează apoi alegerea. Protocoale similare și aceleași alimente false au fost utilizate pentru experimente în diferite țări (adică Germania, Elveția, Marea Britanie și Australia). În prezent, procedura de studiu FFB are încă câteva componente „analogice”. După ce participanții selectează mesele, se face o fotografie, alimentele sunt separate manual, fiecare aliment este cântărit și cercetătorul calculează valorile nutriționale pentru alimentele false selectate. Acest proces ar beneficia de automatizare. Toate alegerile consumatorilor sunt înregistrate și sunt disponibile imagini suplimentare cu produse alimentare false în scopul cercetării.

Primul pas al procesului de automatizare este de a recunoaște produsele false-alimentare și false-băuturi prezente în aceste imagini. Datorită naturii nu numai a produselor false-alimentare și a băuturilor false, ci și a produselor alimentare și a băuturilor în general, aceasta este o problemă deosebit de dificilă de vedere la computer. Diferențierea dintre diferite produse alimentare sau băuturi (de acum înainte „produse alimentare”) poate fi uneori provocatoare chiar și pentru ochiul uman. Problema este că produsele alimentare diferite pot părea foarte asemănătoare și același produs alimentar poate părea să fie substanțial diferit pe diferite imagini din cauza unei varietăți de factori, cum ar fi calitatea imaginii, iluminarea, cantitatea de zgomot prezentă în imagine, modul în care a fost preparat și servit produsul alimentar etc.

Următorul pas este de a potrivi produsele alimentare false recunoscute în imagine cu datele despre compoziția alimentelor, care sunt seturi detaliate de informații despre componentele importante din punct de vedere nutrițional ale alimentelor, oferind valori pentru energie și nutrienți, inclusiv proteine, carbohidrați, grăsimi, vitamine și minerale și pentru alte componente alimentare importante, cum ar fi fibrele etc. Datele sunt prezentate în bazele de date privind compoziția alimentelor (FCDB). Procesul de potrivire semi-automată a alimentelor este o parte crucială a unei evaluări dietetice automate.

În lucrarea actuală, prezentăm rezultatele unui studiu realizat cu obiectivul de a dezvolta o evaluare dietetică automată care constă din două activități principale: (i) recunoașterea automată a articolelor cu alimente false și băuturi false din fotografii; și (ii) atribuirea automată (potrivirea) elementelor recunoscute datelor lor compoziționale. Folosind această abordare, evaluarea dietetică poate fi efectuată mult mai rapid și, în multe cazuri, de asemenea, cu mai multă precizie decât dacă este efectuată manual.

Lucrarea se desfășoară după cum urmează. În secțiunea următoare prezentăm lucrări relevante privind FFB, recunoașterea imaginii alimentelor și potrivirea alimentelor. Ulterior, introducem metodologia aplicată în prezentul studiu la o evaluare dietetică automată. În continuare arătăm modul în care această metodologie a fost aplicată alimentelor false și prezentăm rezultatele evaluării. În cele din urmă, discutăm rezultatele și prezentăm câteva idei pentru munca viitoare.

Munca relevantă

Bufetul fals de mâncare

Modele de alimente-replică, cum ar fi modelele alimentare Nasco (6), au fost utilizate în mod tradițional în evaluarea dietei ca ajutoare de estimare a dimensiunii porțiunilor și în scopuri educaționale. Cu toate acestea, doar recent, modelele de replici alimentare au fost validate și utilizate pentru studii experimentale în alegerea alimentelor și cercetarea comportamentului consumatorului (1). Metoda FFB a fost, de exemplu, utilizată pentru a investiga influențele de mediu, cum ar fi dimensiunea plăcii (3), varietatea de legume (7, 8) în alegerea alimentelor sau efectul informațiilor nutriționale și al etichetelor asupra alegerii alimentelor pentru o singură masă 2, 9) sau pentru o zi întreagă (5). Alimentele false au fost, de asemenea, utilizate pentru a investiga percepțiile asupra sănătății (4, 10) și influențele sociale și atitudinile față de alegerile alimentare (11, 12) .

Între timp, FFB este un instrument de cercetare stabilit în cadrul mai multor facilități de cercetare din întreaga lume; instituțiile de cercetare din Germania, Elveția, Marea Britanie și Australia utilizează un set similar de alimente-replică pentru a aborda o varietate de întrebări de cercetare. Cu toate acestea, până în prezent procedura de efectuare a unui experiment FFB implică încă mai mulți pași manuali, inclusiv identificarea și cuantificarea alimentelor selectate de participanții la studiu și diferite laboratoare de cercetare care utilizează diferite FCDB pentru a calcula conținutul teoretic de nutrienți al alimentelor false. Diferențele în profilul nutrienților aceluiași aliment între diferitele baze de date despre nutrienți din diferite țări ar putea reflecta diferențe reale în compoziția acestor alimente în diferite țări. Conectarea alimentelor false la conținutul standardizat de nutrienți (de exemplu, o bază de date UE) ar putea elimina anumite informații specifice fiecărei țări (de exemplu, legate de procesarea alimentelor). Cu toate acestea, standardizarea calculului conținutului de nutrienți ar facilita în continuare foarte mult colaborarea internațională și compararea porțiilor de alimente.

Recunoașterea imaginii alimentare

Până de curând, abordarea favorizată de majoritatea cercetătorilor în domeniul recunoașterii imaginii alimentare se baza pe descriptori de caracteristici definite manual (13 - 15). Cu toate acestea, din cauza complexității caracteristicilor din imaginile alimentare, această abordare nu a funcționat bine.

Recent, învățarea profundă, o abordare complet automată de învățare automată, a obținut rezultate de ultimă generație într-o mare varietate de probleme de vedere computerizată și implementate pentru a fi cele mai eficiente pentru sarcina de recunoaștere a imaginilor. De asemenea, a fost validat în domeniul recunoașterii imaginilor alimentare de mai multe ori (16 - 23). Cu toate acestea, din câte știm, nu există soluții anterioare care să recunoască automat băuturile din imagini, iar numărul de clase de alimente din seturile de date utilizate până acum este foarte limitat - adesea până la 100 de tipuri diferite de alimente sau Mai puțin. Acesta este motivul pentru care am introdus o abordare care abordează ambele probleme (24). Este o abordare unică datorită modului în care este construit setul de date despre imaginea produselor alimentare și a băuturilor, precum și rețelei de învățare profundă personalizate utilizate. Folosind această abordare, am obținut o precizie de 86 · 72% pe un nou set de date care conține 520 de produse alimentare și băuturi diferite. Cu toate acestea, abordarea noastră, precum și majoritatea soluțiilor enumerate mai sus, au un neajuns: sunt incapabile să recunoască mai multe produse alimentare pe imagine. Abordăm această problemă în lucrarea actuală, deoarece efectuăm o clasificare la nivel de pixel, care nu se limitează la un anumit număr de produse alimentare recunoscute.

Lucrările de cercetare descrise mai sus clasifică produsele alimentare în clase de alimente, care pot fi apoi legate de FCDB pentru a adăuga informații compoziționale. Cu toate acestea, există o altă abordare a acestei probleme: efectuați recunoașterea ingredientelor alimentare și încercați să recunoașteți direct ingredientele alimentare din imagine. Acest lucru a fost prezentat în câteva soluții recente de Chen și colab. (25, 26) și Salvador și colab. (27), care detaliază procesul de recunoaștere a ingredientelor din imaginile alimentare și apoi le leagă de rețete care conțin aceste ingrediente.

Potrivirea alimentelor

Metode

Bufetul fals de mâncare

În studiul actual am folosit datele de imagine dintr-un experiment FFB în care 124 de participanți au fost invitați să servească ei înșiși prânzul dintr-un bufet cu alimente replici. Detalii despre procedurile studiului experimental sunt descrise în altă parte (2). În total, au fost utilizate 121 de fotografii (două imagini lipseau, o imagine incompletă) și din cele cincizeci și șapte clase de alimente, cincizeci și cinci erau potrivite („margarina” nu era prezentă în nicio imagine și „bățurile de pește” erau prezente într-o singură imagine, care nu este suficientă pentru a forma un model de învățare profundă).

Recunoașterea imaginii cu produse alimentare false

Recunoașterea imaginii alimentare necesită mai mulți pași: pre-procesare a imaginii, instruire profundă a modelului de învățare, testare și validare. De asemenea, efectuăm creșterea datelor în etapa de pre-procesare, prin care ne referim la procesul de extindere a setului de date de imagine original prin generarea de variante suplimentare de imagini originale, ceea ce este benefic pentru metodele de învățare profundă, deoarece necesită date cât mai mari setat ca posibil pentru o precizie sporită în lumea reală (33) .

Pre-procesare a imaginii

Pentru a instrui un model de învățare profundă cu privire la imaginile cu alimente false, mai întâi am avut nevoie să pre-procesăm manual imaginile. Scopul principal al etapei de preprocesare este de a genera etichete „adevăr-pământ” pentru produsele alimentare prezente în fiecare imagine, care sunt necesare ulterior pentru învățarea supravegheată a modelului de învățare profundă. Adevărul fundamental se referă la informații despre care știm că sunt corecte; în cazul imaginilor alimentare, aceasta înseamnă că etichetele pentru fiecare dintre produsele alimentare sunt fiabile. De obicei, cea mai simplă abordare pentru a genera astfel de etichete este etichetarea fiecărei imagini cu o singură clasă de alimente (denumirea alimentelor) și instruirea unui model de învățare profundă astfel încât să returneze o etichetă de text pe imagine. Cu toate acestea, întrucât toate imaginile din FFB nu conțin doar mai multe produse alimentare, ci au în medie peste unsprezece alimente, o astfel de abordare ar fi foarte inexactă și, prin urmare, nu este adecvată pentru această aplicație.

De aceea, pentru a genera date despre adevărul solului, a trebuit să etichetăm nu doar fiecare imagine, ci fiecare produs alimentar prezent în fiecare imagine.

Deoarece alimentele se suprapun adesea pe farfurii și băuturi pot obstrucționa vizualizarea altor articole, am etichetat fiecare produs alimentar la un nivel de pixel, ceea ce înseamnă că rezultatul acestui pas a fost o nouă imagine a etichetei cu aceeași lățime și înălțime ca imaginea de intrare, numai cu un singur canal spre deosebire de trei canale utilizate în imaginile RGB. Această imagine a etichetei conține o predicție de clasă pentru fiecare pixel individual, astfel încât un element „roșie” are toți pixelii săi etichetați ca „roșie”, iar pixelii din jur sunt etichetați ca o altă clasă.

Întrucât generarea unor astfel de etichete despre adevărul solului fără erori semnificative nu este banală și este unul dintre principalele obstacole atunci când încercăm să proiectăm o soluție de clasificare la nivel de pixeli, am segmentat manual fiecare produs alimentar și de băut în fiecare dintre cele 121 de imagini alimentare false. Acest lucru a dus la 121 de imagini de etichetă cu un total de 1393 produse alimentare și băuturi diferite, fiecare aparținând uneia dintre cele cincizeci și cinci de clase de mâncare și băutură.

Pregătirea modelului de învățare profundă

Deoarece este posibil să se utilizeze modele de învățare profundă care sunt pre-instruite pe alte seturi de date ca punct de plecare pentru procesul de formare a modelului, am dorit să folosim un model FCN-8s care a fost pre-instruit în clasele de obiecte vizuale PASCAL (PASCAL Set de date VOC) (35) pentru a reduce timpul de antrenament și a crește numărul de imagini pentru antrenament, îmbunătățind astfel robustețea modelului final. Cu toate acestea, deoarece acest set de date conține imagini din doar douăzeci și una de clase diferite, a trebuit să modificăm arhitectura rețelei FCN-8 pentru a o utiliza pentru recunoașterea celor cincizeci și șase de clase (cincizeci și cinci de clase de produse alimentare false și clasa de fundal ). Acest lucru a fost făcut prin adăugarea unui strat suplimentar la sfârșitul rețelei de învățare profundă, care crește numărul de clase de ieșire de la douăzeci și unu la cincizeci și șase. A face acest lucru a fost necesar pentru a profita de rețeaua pre-antrenată, deoarece altfel stratul de ieșire ar trebui recalificat de la început.

Pentru formarea modelului de învățare profundă, am folosit cadrul popular de învățare profundă Caffe, care a fost dezvoltat de Berkeley Vision and Learning Center (36), și NVIDIA Deep Learning GPU Training System (NVIDIA DIGITS), care este o interfață grafică de utilizator construită pe Caffe și oferă opțiuni de feedback în timpul procesului de formare a modelului (37) .

Pentru a instrui modelele, am folosit Adam (38) ca rezolvator. Solvenții sunt metode care efectuează actualizări ale parametrilor rețelei neuronale profunde în fiecare epocă de antrenament, cu scopul de a minimiza funcția de pierdere, care este măsura principală a calității în timpul antrenării modelelor. Solverul este, prin urmare, o parte importantă a procesului de formare a modelului de învățare profundă, care reglează modelul în așa fel încât să reacționeze la caracteristicile din imaginile de intrare și să învețe să le clasifice cu succes. Adam este un rezolvator care adaptează automat rata de învățare la parametri. Rata de învățare definește rata cu care parametrii sunt modificați în timpul procesului de instruire; cu cât rata de învățare este mai mare, cu atât modelul convertește mai rapid către valoarea optimă a pierderii, ceea ce accelerează antrenamentul. Cu toate acestea, rata de învățare nu ar trebui să fie setată prea mare, deoarece modelul ar putea converge apoi la o valoare de pierdere mai proastă sau să nu convergă deloc. Prin urmare, este important să alegem o rată adecvată și am obținut cele mai bune rezultate stabilind rata inițială de învățare la 0 0001 și lăsându-l pe Adam să regleze automat această rată în timpul antrenamentului.

Deoarece FCN efectuează clasificarea fiecărui pixel individual, cerințele de memorie ale acestora sunt mult mai mari decât cele ale rețelelor neuronale convoluționale tradiționale, unde loturi mari de imagini pot fi procesate în același timp. Din acest motiv, a trebuit să setăm software-ul să proceseze o singură imagine la un moment dat, întrucât o singură imagine umplea complet memoria video cu acces aleatoriu a unității de procesare grafică. În plus, am instruit modelul pentru 100 de epoci și apoi am selectat modelul final la epoca în care pierderea din subsetul de validare a încetat să scadă, deoarece aceasta semnalează momentul în care modelul începe să se suprapună cu datele de antrenament. Pentru instruirea modelului, am folosit o singură unitate de procesare grafică NVIDIA GeForce GTX TITAN X.

Măsuri

Pentru a măsura performanța modelului de învățare profundă, am folosit aceleași măsuri de evaluare ca Long et al. (34), deoarece studiul lor a arătat că aceste măsuri sunt adecvate pentru a testa modelele FCN. Măsurile se bazează pe acuratețea standard a pixelilor și măsurile de intersecție peste Uniune (IU), inclusiv următoarele.