Vom demonstra cum să analizăm datele dietelor bogate în grăsimi utilizând modele liniare în loc să aplicăm direct un test t. Vom demonstra cum în cele din urmă aceste două abordări sunt echivalente.

Începem prin citirea datelor și crearea unei diagrame rapide:

cele urmă

Putem vedea că grupul cu diete bogate în grăsimi pare să aibă în medie greutăți mai mari, deși există o suprapunere între cele două probe.

În scop demonstrativ, vom construi matricea de proiectare folosind formula

Dietă. Grupul cu 1 în coloana a doua este determinat de nivelul dietei care este al doilea; adică nivelul fără referință.

Matematica din spatele lm ()

Înainte de a folosi comanda rapidă pentru a rula modele liniare, lm, vrem să analizăm ce se va întâmpla intern. În interiorul lui lm, vom forma matricea de proiectare și vom calcula, care minimizează suma pătratelor folosind formula descrisă anterior. Formula pentru această soluție este:

Putem calcula acest lucru în R folosind operatorul nostru de multiplicare a matricei% *%, funcția inversă rezolvă și funcția de transpunere t .

Acești coeficienți sunt media grupului de control și diferența mediilor:

În cele din urmă, folosim comanda rapidă, lm, pentru a rula modelul liniar:

Examinarea coeficienților

Următorul grafic oferă o vizualizare a semnificației coeficienților cu săgeți colorate (codul nu este afișat):

Pentru a face o legătură cu materialul prezentat anterior, acest model liniar simplu ne oferă de fapt același rezultat (statistica t și valoarea p) pentru diferență ca un tip specific de testare t. Acesta este testul t între două grupuri, presupunând că deviația standard a populației este aceeași pentru ambele grupuri. Acest lucru a fost codificat în modelul nostru liniar atunci când am presupus că erorile au fost distribuite în mod egal.

Deși în acest caz modelul liniar este echivalent cu un test t, vom explora în curând modele mai complicate, unde modelul liniar este o extensie utilă. Mai jos demonstrăm că de fapt se obține exact aceleași rezultate: