R este un pachet software distribuit gratuit pentru analize statistice și grafică, dezvoltat și gestionat de echipa R Development Core. R poate fi descărcat de pe site-ul Internet al Comprehensive R Archive Network (CRAN) (http://cran.r-project.org). Verificați dacă descărcați versiunea corectă de R pentru sistemul dvs. de operare (de exemplu, XP pentru PC, Tiger sau versiunile anterioare de OSX pentru Mac). R este legat de limbajul statistic S care este disponibil comercial ca S-PLUS.

folosind

R este un limbaj orientat obiect. Pentru aplicațiile noastre de bază, matricile care reprezintă seturi de date (unde coloanele reprezintă variabile diferite și rândurile reprezintă subiecte diferite) și vectorii de coloană reprezentând variabile (o valoare pentru fiecare subiect dintr-un eșantion) sunt obiecte în R. Funcțiile din R efectuează calcule pe obiecte. De exemplu, dacă „colesterolul” a fost un obiect care reprezintă nivelurile de colesterol dintr-un eșantion, funcția „medie (colesterol)” ar calcula colesterolul mediu pentru eșantion. Pentru aplicațiile noastre de bază, rezultatele unei analize sunt afișate pe ecran. Rezultatele din analize pot fi, de asemenea, salvate ca obiecte în R, permițând utilizatorului să manipuleze rezultatele sau să le utilizeze în analize suplimentare.

Datele pot fi introduse direct în R, dar de obicei vom folosi MS Excel pentru a crea un set de date. Seturile de date sunt aranjate cu fiecare coloană reprezentând o variabilă și fiecare rând reprezentând un subiect; un set de date cu 5 variabile înregistrate pe 50 de subiecți ar fi reprezentat într-un fișier Excel cu 5 coloane și 50 de rânduri. Datele pot fi introduse și editate folosind Excel. Excel poate salva fișiere în „format delimitat de virgule” sau fișiere .csv; aceste fișiere .csv pot fi apoi citite în R pentru analiză.

R este un limbaj interactiv. Când porniți R, pe prima linie a ferestrei apare o fereastră goală cu un „>”, care este promptul gata. Analizele sunt efectuate printr-o serie de comenzi; utilizatorul introduce o comandă și R răspunde, utilizatorul introduce apoi următoarea comandă și R răspunde. În acest document, comenzile tastate de utilizator sunt date în roșu și răspunsurile din R sunt date în albastru; R utilizează aceeași schemă de culori.

Câteva cote și sfaturi utile atunci când utilizați R:

  • Introducerea unui nume de obiect va imprima în general acel obiect.
  • R este sensibil la majuscule și minuscule, deci un obiect numit Grup trebuie denumit Grup, nu grup.
  • Tastele săgeată sus și jos pot fi folosite pentru a reaminti și derula prin comenzile anterioare, care pot salva tastarea atunci când remediați greșelile de tipar sau modificați o comandă.
  • Introducerea unei litere și apoi apăsarea de două ori a tastei Tab vor afișa comenzile și obiectele care încep cu litera respectivă.
  • Materialul poate fi tăiat și lipit în sau din fereastra R. Acest lucru vă permite să salvați și să imprimați rezultatele R ca parte a documentelor MS Word sau să salvați textul sesiunii dvs. R ca o înregistrare a muncii dvs. Textul R este în general formatat ca font Courier, iar utilizarea fontului Courier 9 puncte funcționează bine pentru ieșirea R.
  • Există o mulțime de ajutor R pe internet. De exemplu, am rămas blocat încercând să descifrez pagina de ajutor R pentru analiza varianței și așa că am căutat pe Google „Analiza varianței R”. Am găsit mai multe site-uri care oferă exemple.
  • Ca și în cazul oricărui program software, există de obicei mai multe modalități de a face lucrurile prin R. Metodele din acest document nu sunt singura modalitate de a efectua aceste analize prin R și ar trebui să vă simțiți liber să experimentați și să explorați.

„Atribuie operator” în R este utilizat pentru a atribui un nume unui obiect. De exemplu, să presupunem că avem un eșantion de 5 sugari cu vârste (în luni) de 6, 10, 12, 7, 15. În R, aceste valori pot fi reprezentate ca un vector coloană (ca set de date, aceste valori Ar fi aranjate într-o singură coloană pentru vârsta variabilă, cu 5 rânduri). Pentru a introduce aceste date în R și a da numele „agemos” acestor date, putem folosi comanda:

'>' Este promptul gata dat de R, indicând faptul că R este gata pentru intrarea noastră (R a tastat>, am tastat restul liniei). Aici, agemos este numele pe care îl dăm obiectului pe care îl vom crea. „” Este operatorul de atribuire, iar „c (…)” este o funcție care creează un vector coloană din valorile indicate. Deci, creăm obiectul „agemos”, care este un vector de date (sau variabilă într-un set de date).

Pentru a imprima un obiect, trebuie doar să introduceți numele obiectului:

„[1]” pe care îl dă R la începutul liniei este un contor - această linie începe cu prima valoare din obiect (acest lucru este util cu seturi de date mai mari atunci când tipărirea se extinde pe mai multe linii). Putem folosi acest nume de obiect în analize ulterioare. De exemplu, vârsta medie a acestor 5 sugari poate fi calculată utilizând funcția „medie ()”:

În R, numele obiectelor sunt arbitrare și vor varia în general pentru a se potrivi unei anumite aplicații sau studii. Funcțiile implică întotdeauna paranteze pentru a cuprinde argumentele relevante, iar numele funcțiilor alcătuiesc limbajul R. Deci, am putea calcula vârsta medie folosind media (agemos) sau media colesterolului utilizând media (colesterol); numele funcției este constant, dar numele obiectului variază pentru a se potrivi studiului particular.

O copie a ecranului R pentru analiza de mai sus, cu liniile de intrare pe care le-am tastat date în roșu și liniile de ieșire pe care R le oferă date în albastru:

Pentru o analiză a unei singure variabile, cu un număr mic de observații, este ușor să introduceți un vector de coloană direct în R așa cum este descris mai sus. Dar, cu seturi de date mai mari, este mai ușor să creați și să salvați mai întâi setul de date în Excel, apoi să aduceți informații din fișierul Excel în R. Există mai multe modalități de a face acest lucru. Mi se pare cel mai ușor să folosesc comanda „read.csv (file.choose))”, care este descrisă mai întâi și folosește un meniu de fișiere asemănător cu Windows pentru a găsi fișierul de date și apoi să aducă datele în R.

1.3.1 Aducerea datelor în R dintr-un fișier Excel folosind comanda read.csv (file.choose ())

MS Excel este un instrument excelent pentru introducerea și gestionarea datelor dintr-un mic studiu statistic. Datele sunt aranjate cu variabile ca coloane și subiecți ca rânduri. Primul rând al fișierului Excel („antetul”) poate fi utilizat pentru a furniza nume de variabile (nume de obiecte pentru vectori în R). De exemplu, următoarele sunt date de la primii 5 subiecți dintr-un studiu pentru a compara prima vârstă de mers pe jos între două grupuri de sugari: