Datorită îmbunătățirii nivelului de trai al oamenilor, obezitatea crește într-un ritm alarmant, iar acest lucru reflectă riscurile pentru sănătatea oamenilor. Oamenii trebuie să-și controleze aportul zilnic de calorii consumând alimente mai sănătoase, care este metoda cea mai de bază pentru a evita obezitatea. Cu toate acestea, deși ambalajul alimentar vine cu etichete nutriționale (și calorice), nu este încă foarte convenabil pentru oameni să facă referire. Astfel, oamenii de știință au început să folosească algoritmi de învățare automată în vederea computerizată pentru a ajuta oamenii să determine valoarea calorică din alimentele pe care le consumă. În cadrul Summit-ului Rework Deep Learning 2015 din Boston, omul de știință Google Kevin Murphy a prezentat un algoritm de învățare profundă care a fost folosit pentru a analiza imaginea alimentelor statice. Analizând compoziția alimentelor din imagine, algoritmul poate calcula câte calorii are vasul.

estimare

Această lucrare încearcă să ofere un mod mai eficient de estimare a caloriilor. În primul rând, are nevoie de imagini de vedere de sus și de vedere laterală a alimentelor analizate. Apoi, va utiliza Faster R-CNN pentru a detecta obiectul alimentar și de calibrare, după care se utilizează un algoritm GrabCur pentru a determina conturul alimentelor. După estimarea volumului de alimente, autorii pot estima în cele din urmă cantitatea de calorii.

Când indicele de masă corporală (IMC) al oamenilor depășește 30 (kg/m2), aceștia sunt, în general, considerați obezi. IMC ridicat poate crește riscul de boli cum ar fi bolile de inimă [1]. Principalul motiv pentru obezitate se datorează dezechilibrului dintre cantitatea de aport caloric (consum) și producția de energie (cheltuială). Din cauza refuzului de a înregistra și a urmări, a lipsei informațiilor nutriționale conexe sau a altor motive, pacienții întâmpină deseori probleme în controlul cantității de calorii pe care le consumă. Există o mulțime de metode propuse pentru a estima caloriile pe baza viziunii computerizate [2, 3, 4, 5], dar după analiza autorilor, precizia detecției și estimarea volumului trebuie încă îmbunătățite. În această lucrare, diferența principală față de alte abordări similare constă în faptul că necesită introducerea a două imagini și utilizarea Faster R-CNN pentru a detecta obiectul și algoritmul GrabCut pentru a obține conturul fiecărui aliment. După aceea, autorii pot estima volumul și caloriile fiecărui aliment.

Această metodă este prezentată în Figura 1. După cum sa menționat anterior, procesul de estimare a caloriilor necesită două imagini din partea superioară și laterală și fiecare imagine ar trebui să includă obiectul de calibrare. Aici, autorii aleg rețele neuronale convoluționale bazate pe regiuni mai rapide (R-CNN mai rapid) [5] pentru a detecta obiecte și algoritmul GrabCut [6] ca algoritm de segmentare.

Autorii au ales Faster R-CNN în loc să folosească metoda de segmentare semantică, cum ar fi Rețelele complet convoluționale (FCN). Aici, după ce imaginile sunt introduse ca canale RGB, autorii pot obține o serie de casete de delimitare, ceea ce înseamnă clasa dacă este judecat.

Acest proces utilizează o abordare de procesare a imaginilor pentru a segmenta fiecare casetă de delimitare. După cum sa menționat mai sus, casetele de delimitare în jurul obiectului de care GrabCut are nevoie pot fi furnizate de Faster R-CNN. După segmentare, putem obține o serie de imagini alimentare stocate în matrice, dar cu valorile pixelilor de fundal înlocuite cu zerouri. Aceasta va lăsa doar pixelii din prim-plan.

Pentru a estima volumul, autorii calculează factorii de scară pe baza obiectelor de calibrare. Autorii folosesc o monedă de 1 CNY pentru a arăta procesul specific de calcul al volumului. Diametrul monedei este de 2,5 cm, iar factorul de scară al vederii laterale a fost calculat cu ecuația 1.

În această ecuație, Ws este lățimea casetei de delimitare, Hs este înălțimea casetei de delimitare. În mod similar, scala vederii de sus poate fi calculată cu ecuația 2.

După aceea, autorii împart alimentele în trei categorii în funcție de formă: elipsoidă, coloană, neregulată. Formula diferită de estimare a volumului va fi selectată pentru diferite tipuri de alimente, în conformitate cu ecuația 3. HS este înălțimea vederii laterale PS și LkS este numărul de pixeli din primul plan din rândul k (k ∈ 1,2, ..., HS). LMAX = max (Lk,…, Lk), înregistrează numărul maxim de pixeli din prim-plan în PS. ß este un factor de compensare (valoarea implicită = 1,0). După aceea, pentru fiecare tip de mâncare va exista o valoare unică.

După estimarea volumului, următorul pas este estimarea masei fiecărui aliment. Poate fi calculat în ecuația 4, unde v (cm³) reprezintă volumul alimentelor curente, iar ρ (g/cm³) reprezintă valoarea densității sale

Apoi, caloria alimentelor poate fi obținută cu ecuația 5.

Unde m (g) reprezintă masa alimentelor curente și c (Kcal/g) reprezintă caloriile pe gram.

În această lucrare, autorii folosesc propriul nume de set de produse alimentare ECUSTFD (descărcabil pe acest site) ECUSTFD conține 19 tipuri de alimente. Folosesc un telefon inteligent pentru a realiza imaginile necesare și fiecare pereche de imagini conține o vedere de sus și o vedere laterală. O monedă de 1 CNY este utilizată ca obiect de calibrare. În plus, pentru fiecare imagine din ECUSTFD, acestea oferă adnotări, volum și înregistrări de masă.

Autorul folosește un experiment de comparație pentru a alege algoritmul de detectare a obiectelor. Numărul de imagini de antrenament și imagini de testare sunt prezentate în Figura 2. Precizia medie a fost utilizată pentru a evalua rezultatele detectării obiectelor. În setul de testare, Faster R-CNN atinge 93,0%, în timp ce Exemplar SVM atinge 75,9%.

ß (factor de compensare) în ecuația 3 poate fi calculat cu ecuația 6, unde k este tipul de hrană, iar N este numărul estimării volumului.

p în ecuația 4 poate fi calculat cu ecuația 7.

După aceea, autorii dau definiția formei, numărul imaginilor de estimare, ß, ρ pentru fiecare aliment din Tabelul 1.

Apoi, utilizând imaginile din setul de testare, rezultatele pot fi afișate în Tabelul 2.

Autorii folosesc eroarea medie a volumului pentru a evalua rezultatele estimării volumului. Definiția erorii de volum mediu este așa cum se arată în ecuația 8, unde tipul de hrană este i, 2Ni este numărul de imagini pe care F-R-CNN le recunoaște corect.

Definiția erorii de masă medie se află în ecuația 9.

Pentru rezultatele din Tabelul 2, vedem că majoritatea tipurilor de rezultate ale estimării alimentelor sunt mai apropiate de valorile reale de referință. În afară de banane, pâine și prăjitură, eroarea medie între volumul estimat și volumul real nu depășește ± 20%. Chiar dacă metoda de drenaj nu este atât de precisă, dar metoda de estimare poate fi acceptată.

Această lucrare ne oferă o metodă de estimare a caloriilor, iar rezultatele experimentelor arată promițătoare.

Deoarece imaginile sunt preluate de pe smartphone-uri, iar metodele de procesare a imaginilor utilizate aici sunt bine dezvoltate, această metodă propusă poate fi ușor integrată în aplicațiile de sănătate ca soluție de inginerie. Cu toate acestea, din perspectiva cercetării, cred că această lucrare are două limitări. În primul rând, nu există nicio comparație cu munca anterioară. Autorii au oferit o revizuire a literaturii în introducere, dar cred că ar fi trebuit să-și compare rezultatele cu rezultatele din acele lucrări anterioare. Dacă această abordare poate obține o performanță mai bună, atunci putem spune că această lucrare oferă o modalitate mai eficientă. Din păcate, nu putem spune asta, deoarece autorul nu a oferit o serie de experimente de comparație. În al doilea rând, nu sunt sigur dacă setul de date este corect sau suficient de mare. Autorii spun doar că au preluat imaginile de pe un smartphone, dar nu au spus dacă există un standard pentru colectarea imaginilor. La fel ca intensitatea luminii și numărul de pixeli. În plus, în tabelul 2 putem vedea că eroarea medie este încă mare, ceea ce indică faptul că există un spațiu pentru a face eroarea medie mult mai mică.

[1] W. Zheng, DF Mclerran, B. Rolland, X. Zhang, M. Inoue, K. Matsuo, J. He, PC Gupta, K. Ramadas, S. Tsugane, Asocierea între indicele de masă corporală și riscul de moarte la peste 1 milion de asiatici, New England Journal of Medicine 364 (8) (2011) 719–29.
[2] W. Jia, HC Chen, Y. Yue, Z. Li, J. Fernstrom, Y. Bai, C. Li, M. Sun, Precizia estimării mărimii porțiunii de alimente din imaginile digitale dobândite de o cameră purtată de piept ., Public Health Nutrition 17 (8) (2014) 1671–81.
[3] Z. Guodong, Q. Longhua, Z. Qiaoming, Determinarea dimensiunii porției de alimente prin procesarea imaginilor, 2008, pp. 119–128.
[4] Y. Bai, C. Li, Y. Yue, W. Jia, J. Li, Z. H. Mao, M. Sun, Designing a wearable computer for lifestyle lifestyle., În: Bioengineering Conference, 2012, pp. 93-94.
[5] P. Pouladzadeh, P. Kuhad, S. V. B. Peddi, A. Yassine, S. Shirmohammadi, Măsurarea caloriilor alimentare bazate pe cloud mobil (2014) 1-6.
[6] S. Ren, K. He, R. Girshick, J. Sun, Faster r-cnn: Către detectarea obiectelor în timp real cu rețele de propunere de regiune, în: Advances in neuronal information-tion processing systems, 2015, pp. 91-99.
[7] C. Rother, V. Kolmogorov, A. Blake, Grabcut: Extragere interactivă de prim-plan folosind tăieturi grafice iterate, în: tranzacții ACM pe grafică (TOG), Vol. 23, ACM, 2004, pp. 309–314.

Autor: Shixin Gu | Editor: Joni Chung Localizat de Synced Global Team: Xiang Chen