Deci, știți cu ce fel de date lucrați: cum codificați valorile în diagrame grafice?

S-ar putea să vă amintiți ultima mea postare pe primul pilon al mapării datelor la vizualizări: atribute de date. Urmând modelul ordinal pe care l-am stabilit, următorul subiect post pe care aș dori să îl discut este al doilea pilon al mapării datelor către vizualizări - procesul de codificare vizuală.

pilon

Am identificat deja un proces pentru a determina ce tip de date aveți (nominal, ordinal, interval, raport) și axa pe care trebuie să o mapați. Acum trebuie să ne dăm seama cum să afișăm cel mai bine aceste date folosind culori, forme, dimensiuni și poziție.

Pentru o perspectivă adecvată asupra subiectului, în 1984 William S. Cleveland și Robert McGill au publicat o piesă de cercetare importantă privind percepția grafică care articula standardele pe care multe vizualizări de date le respectă astăzi. Cercetarea lor, care a fost publicată în Journal of the American Statistical Association, a concluzionat că toată lumea are percepții diferite despre vizualizări, dar există câțiva pași simpli pe care toți îi pot urma. Cleveland și McGill au testat o serie de teorii de codificare vizuală prin experimentare și au stabilit o serie de linii directoare pe baza cărora markerul vizual este mai precis vs. mai puțin exacte.

Pentru ca toate datele să fie mapate la o vizualizare, acestea sunt opțiunile de bază de afișare:

De exemplu, dacă ne uităm la exemple de date de raport, diferența dintre punctele de date este de cea mai mare importanță. Prin urmare, ar trebui să folosim markerii vizuali care sunt cei mai exacți.

Din lucrarea de Cleveland și McGill putem comanda acuratețe pentru acești markeri astfel:

În acest caz, poziția este cel mai precis marker urmat de lungime și unghi, ceea ce are sens dacă cartografiați punctele de date pe care le-am identificat în postarea anterioară (cost, vârstă). În mod similar, dacă ai încerca să mapezi aceste exemple folosind culoarea - cum ai determina valoarea culorii verde închis dacă ți-aș spune că cea deschisă reprezintă 1.000 USD?

În ceea ce privește diagramele bazate pe poziție sau pe lungime, așa cum a remarcat Alberto Cairo în cea mai recentă carte The Functional Art, topurile ar trebui să includă orice poate fi măsurat pe axa X. Acest lucru este ilustrat foarte bine de un grafic din cartea sa care prezintă obezitatea pe stat în Statele Unite. Pentru cartografierea obezității pe stare, este logic să folosiți poziția. Pentru a compara stările obezitate față de vecinii lor, este logic să folosiți umbrirea culorilor.

Aflați despre al doilea pilon al mapării datelor la vizualizări pe Qlik Blog #dataviz

Acesta este doar un exemplu, dar dacă aveți alte tipuri de date, veți avea nevoie de un ghid pentru a determina care metodă de codificare vizuală este cea mai potrivită pentru dvs. Aruncați o privire la imaginea de mai jos, aceasta oferă un ghid prioritar îngrijit prin care datele dvs. ar trebui să fie mapate.

În general, oricând puteți utiliza date de poziție este în interesul dumneavoastră. Cu toate acestea, datele de poziție nu trebuie luate cu ușurință, după cum puteți vedea în exemplul de mai jos. În prima diagramă, vedem o vizualizare care încearcă să indice că mașinile sunt vândute în diferite țări, dar există o problemă. În acest caz, un atribut nominal (țară) fiind mapat în funcție de lungime, ceea ce nu ne ajută să înțelegem foarte bine datele. Să încercăm să mapăm aceste date într-un alt mod.

Mai jos, puteți vedea că ambele atribute au fost mapate în funcție de poziție, ceea ce ne permite să aflăm mai multe despre date. Este mult mai bine. De asemenea, permite cititorului să interpreteze noi posibilități, spre deosebire de exemplul nostru anterior, care este întotdeauna un lucru bun.

Un alt avantaj cu care ați putea fi familiarizat este ghidul nostru pentru alegerea vizualizării corecte din prima mea postare de blog. Pentru o diagramă populară, cum ar fi un diagramă de împrăștiere, dacă ar fi să mapați datele în acest fel, ar avea mai mult sens (folosind ghidul de date vedeți trei imagini de mai sus) să utilizați dimensiunea punctelor pe mai multe culori atunci când priviți datele interval/raport . Există mulți alți factori de luat în considerare, dar veți fi într-o formă bună dacă vă amintiți următoarele:

Pentru date nominale: Nicio valoare nu este mai importantă decât următoarea: în timp ce poziția este cea mai bună, cercurile și pătratele vor fi utile pentru a vă afișa datele.

Pentru date ordinale: Deoarece încercați să mapați datele cu o clasare inerentă, tonurile deschise și întunecate ale umbririi vor sublinia și mai mult importanța datelor dvs.

Pentru date privind intervalul/raportul: Căutați să mapați valorile numerice, prin urmare cel mai bun mod de a măsura aceste valori este prin poziție sau lungime.

Sper că aceste ghiduri și grafică v-au fost de ajutor. Asigurați-vă că rămâneți în căutarea următoarei mele postări care se adresează celui de-al treilea (și ultimul) pilon al datelor de cartografiere a vizualizărilor: utilizare.