Publicații

Statistici: Putere din date!

Măsuri de răspândire

  • Pagina de bun venit
  • Gama și quartile
  • Varianța și abaterea standard
  • Rezumate cu cinci numere
  • Construirea de parcele pentru cutii și mustăți
  • Exerciții
  • Răspunsuri

Conținut arhivat

Informațiile identificate ca arhivate sunt furnizate în scopuri de referință, cercetare sau evidență. Nu este supus standardelor web ale Guvernului Canadei și nu a fost modificat sau actualizat de când a fost arhivat. Vă rugăm să ne contactați pentru a solicita un alt format decât cele disponibile.

  • Proprietățile deviației standard
  • Variabile discrete
  • Exemplul 1 - Abaterea standard
  • Tabel de frecvență (variabile discrete)
  • Exemplul 2 - Abaterea standard calculată utilizând un tabel de frecvențe
  • Exemplul 3 - Abaterea standard utilizând variabile grupate (continue sau discrete)
  • Exemplul 4 - Abaterea standard
  • Exemplul 5 - Abaterea standard

Spre deosebire de interval și quartile, varianța combină toate valorile dintr-un set de date pentru a produce o măsură a răspândirii. Varianța (simbolizată prin S 2 ) și deviația standard (rădăcina pătrată a varianței, simbolizată prin S) sunt cele mai utilizate măsuri de răspândire.

Știm că varianța este o măsură a cât de răspândit este un set de date. Se calculează ca deviația pătrată medie a fiecărui număr față de media unui set de date. De exemplu, pentru numerele 1, 2 și 3 media este 2 și varianța este 0,667.

[(1 - 2) 2 + (2 - 2) 2 + (3 - 2) 2] ÷ 3 = 0,667

[deviația pătrată de la medie] ÷ numărul de observații = varianță

Varianța (S 2) = deviația pătrată medie a valorilor față de medie

Calcularea varianței implică deviații la pătrat, deci nu are aceeași unitate de măsură ca observațiile inițiale. De exemplu, lungimile măsurate în metri (m 2) au o varianță măsurată în metri pătrate (m 2).

Luarea rădăcinii pătrate a varianței ne oferă unitățile utilizate în scara originală și aceasta este abaterea standard.

Abaterea standard (S) = rădăcina pătrată a varianței

Abaterea standard este măsura răspândirii cea mai frecvent utilizată în practica statistică atunci când media este utilizată pentru a calcula tendința centrală. Astfel, măsoară răspândirea în jurul valorii medii. Datorită legăturilor sale strânse cu media, deviația standard poate fi foarte mult afectată dacă media dă o măsură slabă a tendinței centrale.

Abaterea standard este, de asemenea, influențată de valori aberante, o valoare ar putea contribui în mare măsură la rezultatele abaterii standard. În acest sens, abaterea standard este un bun indicator al prezenței valorilor aberante. Acest lucru face ca deviația standard să fie o măsură foarte utilă a răspândirii pentru distribuții simetrice fără valori aberante.

Abaterea standard este, de asemenea, utilă atunci când se compară răspândirea a două seturi de date separate care au aproximativ aceeași medie. Setul de date cu deviația standard mai mică are o răspândire mai restrânsă a măsurătorilor în jurul valorii medii și, prin urmare, are de obicei comparativ mai puține valori ridicate sau scăzute. Un element selectat la întâmplare dintr-un set de date a cărui abatere standard este mică are șanse mai mari de a fi aproape de medie decât un articol dintr-un set de date a cărui abatere standard este mai mare.

În general, cu cât valorile sunt mai răspândite, cu atât deviația standard este mai mare. De exemplu, imaginați-vă că trebuie să separăm două seturi diferite de rezultate ale examenului de la o clasă de 30 de studenți, primul examen are note cuprinse între 31% și 98%, celălalt variază de la 82% la 93%. Având în vedere aceste intervale, abaterea standard ar fi mai mare pentru rezultatele primului examen.

Abaterea standard ar putea fi dificil de interpretat în termeni de cât de mare trebuie să fie pentru a lua în considerare datele răspândite pe scară largă. Mărimea valorii medii a setului de date depinde de mărimea abaterii standard. Atunci când măsurați ceva care este în milioane, a avea măsuri care sunt „apropiate” de valoarea medie nu are aceeași semnificație ca atunci când măsurați greutatea a doi indivizi. De exemplu, o măsură de două mari companii cu o diferență de 10.000 USD în venituri anuale este considerată destul de apropiată, în timp ce o măsură de două persoane cu o diferență de greutate de 30 de kilograme este considerată departe. Acesta este motivul pentru care, în majoritatea situațiilor, este util să se evalueze dimensiunea abaterii standard față de media setului de date.

Deși deviația standard este mai puțin susceptibilă la valori extreme decât intervalul, deviația standard este încă mai sensibilă decât intervalul semi-quartile. Dacă se prezintă posibilitatea unor valori ridicate (valori aberante), atunci abaterea standard ar trebui să fie completată de gama semi-quartile.

Proprietățile deviației standard

Când utilizați abaterea standard, țineți cont de următoarele proprietăți.

  • Abaterea standard este utilizată numai pentru a măsura răspândirea sau dispersia în jurul mediei unui set de date.
  • Abaterea standard nu este niciodată negativă.
  • Abaterea standard este sensibilă la valori aberante. O singură valoare anterioară poate crește abaterea standard și, la rândul său, distorsiona imaginea răspândirii.
  • Pentru date cu aproximativ aceeași medie, cu cât răspândirea este mai mare, cu atât deviația standard este mai mare.
  • Dacă toate valorile unui set de date sunt aceleași, abaterea standard este zero (deoarece fiecare valoare este egală cu media).

Când se analizează datele distribuite în mod normal, abaterea standard poate fi utilizată împreună cu media pentru a calcula intervalele de date.

Dacă = medie, S = abaterea standard și X = o valoare din setul de date, apoi

  • aproximativ 68% din date se află în intervalul: - S 2).
  • Folosiți rădăcina pătrată pozitivă (deviație standard, S).
  • varianța

Exemplul 1 - Abaterea standard

O găină depune opt ouă. Fiecare ou a fost cântărit și înregistrat după cum urmează:

60 g, 56 g, 61 g, 68 g, 51 g, 53 g, 69 g, 54 g.

  1. Mai întâi, calculați media:
  2. Acum, găsiți abaterea standard.

Tabelul 1. Greutatea ouălor, în grame Greutate (x) (x -) (x -) 2 60 56 61 68 51 53 69 54 472
1 1
-3 9
2 4
9 81
-8 64
-6 36
10 100
-5 25
320

Folosind informațiile din tabelul de mai sus, putem vedea asta

Tabel de frecvență (variabile discrete)

Formulele pentru varianță și abaterea standard se modifică ușor dacă observațiile sunt grupate într-un tabel de frecvențe. Abaterile pătrate sunt înmulțite cu valoarea fiecărei frecvențe și apoi se calculează totalul acestor rezultate.

Într-un tabel de frecvență, varianța pentru o variabilă discretă este definită ca

Exemplul 2 - Abaterea standard calculată utilizând un tabel de frecvențe

Treizeci de fermieri au fost întrebați câți lucrători agricoli angajează într-un sezon tipic de recoltare. Răspunsurile lor au fost:

4, 5, 6, 5, 3, 2, 8, 0, 4, 6, 7, 8, 4, 5, 7, 9, 8, 6, 7, 5, 5, 4, 2, 1, 9, 3, 3, 4, 6, 4

Tabelul 2. Treizeci de fermieri au fost întrebați câți lucrători fermieri angajează într-un sezon tipic de recoltare. Răspunsurile lor au fost: Muncitori (x) Frecvență de cont (f) (xf) (x -) (x -) 2 (x -) 2 f 0 1 2 3 4 5 6 7 8 9
1 0 -5 25 25
1 1 -4 16 16
2 4 -3 9 18
3 9 -2 4 12
6 24 -1 1 6
5 25 0 0 0
4 24 1 1 4
3 21 2 4 12
3 24 3 9 27
2 18 4 16 32
30 150 152

Exemplul 3 - Abaterea standard utilizând variabile grupate (continue sau discrete)

220 de studenți au fost întrebați numărul de ore pe săptămână pe care le petreceau uitându-se la televizor. Cu aceste informații, calculați media și deviația standard a orelor petrecute la televizor de către cei 220 de studenți.

Tabelul 3. Numărul de ore pe săptămână petrecute la televizor OreNumăr de studenți10-1415-1920 - 2425 - 2930 la 3435 la 3940-44
2
12
23
60
77
38
8
  1. În primul rând, folosind numărul de studenți ca frecvență, găsiți punctul de mijloc al intervalelor de timp.
  2. Acum calculați media folosind punctul mediu (X) și frecvența (f).

Notă: În acest exemplu, utilizați o variabilă continuă care a fost rotunjită la cel mai apropiat număr întreg. Grupul de 10-14 este de fapt de la 9,5 la 14,499 (deoarece 9,5 ar fi rotunjit la 10 și 14,499 ar fi rotunjit la 14). Intervalul are o lungime de 5, dar punctul de mijloc este 12 (9,5 + 2,5 = 12).

6.560 = (2 X 12 + 12 X 17 + 23 X 22 + 60 X 27 + 77 X 32 + 38 X 37 + 8 X 42)

Apoi, calculați numerele pentru xf, (X -), (x -) 2 și (x -) 2 f formule.

Adăugați-le în tabelul de frecvențe de mai jos.

Tabelul 4. Numărul de ore petrecute la televizor Ore Punct de mijloc (x) Frecvență (f) xf (x -) (x -) 2 (x -) 2 f 10-14 15-19 20 - 24 25 - 29 30 la 34 35 la 39 40-44
12 2 24 -17,82 317.6 635.2
17 12 204 -12,82 164.4 1.972,8
22 23 506 -7.82 61.2 1.407,6
27 60 Cel mai frecvent 1.620 -2,82 8.0 480,0
32 77 2.464 este cel mai frecvent 2.18 4.8 369.6
37 38 Cel mai frecvent 1.406 7.18 51.6 1.960,8
42 8 336 12.18 148.4 1.187,2
220 Cea mai comună 6.560 8,013,2

Exemplul 4 - Abaterea standard

Utilizați informațiile găsite în tabelul de mai sus pentru a găsi abaterea standard.

Notă: În timpul calculelor, atunci când o variabilă este grupată pe intervale de clasă, punctul mediu al intervalului este utilizat în locul oricărei alte valori din interval. Astfel, răspândirea observațiilor în cadrul fiecărui interval este ignorată. Acest lucru face ca abaterea standard să fie întotdeauna mai mică decât valoarea reală. Prin urmare, ar trebui considerată o aproximare.

Exemplul 5 - Abaterea standard

Presupunând că distribuția frecvenței este aproximativ normală, calculați intervalul în care s-ar aștepta să apară 95% din observațiile exemplului anterior.

= 29,82, s = 6,03

Calculați intervalul folosind următoarea formulă: - 2s