Care este ordinea cea mai comună de curățare a datelor, transformarea datelor și analiza datelor exploratorii?

curățarea

Pentru mine mi se pare cel mai logic să fac curățarea datelor, apoi EDA și în cele din urmă transformarea datelor (codarea variabilelor categorice și scalarea caracteristicilor).

Efectuarea transformării datelor înainte de EDA, pare să facă EDA nu atât de util, așa cum nu poți ex. căutați lucruri precum:

Pasagerii din intervalul de vârstă 0-18 au șanse mai mari de supraviețuire

(dacă scalarea caracteristicilor a fost aplicată funcției de vârstă).

Dar, din nou, făcând transformarea datelor după EDA, pierdeți și șansa de a codifica variabilele categorice și astfel vizualizați corelațiile celor cu variabila țintă.

Care este ordinea proceselor menționate? Și există chiar o comandă?

2 Răspunsuri 2

Deși nu este foarte util, răspunsul este probabil „depinde”.

Îmi place să fac curățarea datelor și unele EDA împreună, deoarece EDA poate evidenția tratamentele adecvate pentru curățarea datelor - de ex. influențând modul de gestionare a valorilor lipsă.

Cred că transformarea datelor ar trebui făcută chiar înainte de modelare; dacă trebuie sau nu să faci vreo transformare depinde de tehnicile pe care intenționezi să le folosești.

Sunt de acord cu „depinde” - de obiectivul dvs. și de natura datelor și de cât de mult știți dvs. și echipa dvs. despre date. Pentru datele text, metodele de curățare sunt destul de clare, așa că probabil aș face mai întâi curățarea datelor. Pentru datele de imagine cu volum mare (screeningul cancerului, seismologia), există compromisuri majore între reducerea datelor și detectarea caracteristicilor. În acest domeniu cu volum mare, cred că calea dvs. ar fi mai puțin clară - cu excepția cazului în care dvs. sau echipa dvs. știți ce metode de reducere a datelor și de curățare au fost utile în trecut. Cunoașterea domeniului poate fi foarte importantă în selectarea și formatarea datelor pentru analizele ulterioare.