Prima condiție simplă a modelului de regresie liniară se referă la liniaritate: media răspunsului la fiecare valoare predictivă ar trebui să fie o funcție liniară a predictorului. Lucrul îngrijit despre regresia liniară simplă - în care există un răspuns y și un singur predictor x - este că putem avea o senzație bună pentru această afecțiune doar uitându-ne la un grafic de împrăștiere simplu (deci, în acest caz, nu chiar trebuie să te uiți la un complot rezidual). Să începem prin a analiza trei exemple diferite.

Cancer de piele și mortalitate

Datele sugerează că o funcție liniară este adecvată în descrierea relației dintre mortalitatea cancerului de piele și latitudine (set de date despre cancerul de piele)?

inspecție

Raspunsul este da! Se pare că relația dintre latitudine și mortalitatea prin cancer de piele este într-adevăr liniară și, prin urmare, ar fi cel mai bine dacă am rezuma tendința datelor folosind o funcție liniară.

Aligatori

Lungimea unui aligator poate fi estimată destul de precis din fotografii aeriene sau dintr-o barcă. Cu toate acestea, estimarea greutății aligatorului este o provocare mult mai mare. O abordare este utilizarea unui model de regresie care să rezume tendința dintre lungimea și greutatea aligatorilor. Lungimea unui aligator obținută dintr-o fotografie aeriană sau barca poate fi apoi utilizată pentru a prezice greutatea aligatorului. Luând această abordare, unii biologi ai faunei sălbatice au capturat un eșantion aleatoriu de n = 25 aligatori. Au măsurat lungimea (x, în inci) și greutatea (y, în kilograme) a fiecărui aligator. (Set de date aligator)

Datele rezultate sugerează că o funcție liniară este adecvată în descrierea relației dintre lungimea și greutatea unui aligator?

Raspunsul este nu! Nu credeți că o funcție curbată ar descrie mai adecvat tendința? Graficul scatter ne oferă o indicație destul de bună că un model liniar este inadecvat în acest caz.

Coroziunea aliajelor

Treisprezece (n = 13) eșantioane de aliaj cuprinse în 90% cupru și 10% nichel - fiecare cu un conținut specific de fier - au fost testate pentru coroziune. Fiecare exemplar a fost rotit în apă de mare sărată la 30 de picioare pe secundă timp de 60 de zile. Coroziunea a fost măsurată în pierderea în greutate în miligrame/decimetru pătrat/zi. Cercetătorii au fost interesați să studieze relația dintre conținutul de fier (x) și pierderea în greutate datorată coroziunii (y). (Set de date de coroziune)

Datele rezultate care apar în următorul grafic sugerează că o funcție liniară este adecvată în descrierea relației dintre conținutul de fier și pierderea în greutate datorată coroziunii?

Raspunsul este da! La fel ca în primul exemplu, inspecția noastră vizuală a datelor sugerează că un model liniar ar fi adecvat în descrierea tendinței dintre conținutul de fier și pierderea în greutate datorată coroziunii.

Incearca-l! Inspecția vizuală a parcelelor

Venituri și timp pentru primul copil. Setul de date Venituri și nașteri conține veniturile anuale ale soțului (inc, în dolari) și timpul (timpul, în luni) între căsătorie și primul copil pentru n = 20 de cupluri. (După cum vă puteți da seama de venituri, setul de date este destul de vechi!)

    Creați o linie grafică adaptată care tratează timpul ca răspuns și inc ca predictor. (Vedeți Ajutor Minitab: Crearea unui grafic liniar adaptat).

Nu, datele afișează o relație curbiliniară între Y = timp și X = inc.

Pește Bluegill. Setul de date Blue Gills conține lungimile (în mm) și vârstele (în ani) ale n = 78 pești bluegill.

    Creați un grafic liniar adaptat tratând lungimea ca răspuns și vârsta ca predictor.

Probabil că nu, deoarece modelul de creștere pare mai abrupt decât linia potrivită pentru vârstele 1-4 și apoi lungimea pare să se niveleze pentru vârstele 5-6.

Scoruri adaptive Gesell. Setul de date Adaptive conține scorurile adaptative Gesell și vârstele (în luni) de n = 21 de copii cu boli cardiace cianotice.

    Creați o linie grafică adaptată tratând scorul ca răspuns și vârsta ca predictor.

Funcția liniară descrie relația în mod rezonabil pentru majoritatea punctelor de date, dar pare puternic influențată de punctul pentru vârstă = 42 în extrema dreaptă și punctul cu scor = 120 în partea de sus nu pare să se potrivească foarte bine tendinței generale.