23 august 2016 • 5 minute citite

Biblioteci la îndemână Python pentru formatare și curățare a datelor

Lumea reală este dezordonată, la fel și datele sale. Atât de dezordonat, încât un sondaj recent a raportat că oamenii de știință își petrec 60% din timp curățând datele. Din păcate, 57% dintre ei consideră că este cel mai puțin plăcut aspect al muncii lor.

Datele de curățare pot consuma mult timp, dar au apărut multe instrumente pentru a face această datorie crucială puțin mai suportabilă. Comunitatea Python oferă o serie de biblioteci pentru a face datele ordonate și lizibile - de la stilizarea DataFrames la seturi de date anonimizate.

Spuneți-ne ce biblioteci vi se par utile - căutăm întotdeauna să acordăm prioritate bibliotecilor pe care să le adăugați în notebook-urile Mode Python.

îndemână
Păcat că curățarea nu este la fel de distractivă pentru oamenii de știință de date ca și pentru acest tip mic.

Dora este concepută pentru analize exploratorii; în mod specific, automatizarea celor mai dureroase părți ale acesteia, cum ar fi selectarea și extragerea caracteristicilor, vizualizarea și - ați ghicit - curățarea datelor. Funcțiile de curățare includ:

  • Citirea datelor cu valori lipsă și slab scalate
  • Imputarea valorilor lipsă
  • Scalarea valorilor variabilelor de intrare

datacleaner

Surpriză, surpriză, curățarea de date vă curăță datele - dar numai odată ce se află într-un DataFrame pandă. De la creatorul Randy Olson: „Datacleaner nu este o magie și nu va lua un blob neorganizat de text și nu-l va analiza în mod automat.”

Cu toate acestea, va renunța la rânduri cu valori lipsă, va înlocui valorile lipsă cu modul sau mediana pe bază de coloană cu coloană și va codifica variabile nenumerice cu echivalenți numerici. Această bibliotecă este destul de nouă, dar din moment ce DataFrames este fundamental pentru analiza în Python, merită verificat.

Creat de: Randy Olson
Unde să aflați mai multe: https://github.com/rhiever/datacleaner

PrettyPandas

DataFramele sunt puternice, dar nu produc genul de tabele pe care ai vrea să le arăți șefului tău. PrettyPandas folosește pandas Style API pentru a transforma DataFrames în tabele demne de prezentare. Creați rezumate, adăugați stil și formatați numere, coloane și rânduri. Bonus adăugat: documentație robustă, ușor de citit.

cataloga

tabulează vă permite să imprimați tabele mici, frumoase, cu un singur apel funcțional. Este la îndemână pentru ca tabelele să fie mai ușor de citit cu alinierea coloanelor după zecimale, formatarea numerelor, anteturi și multe altele.

Una dintre cele mai interesante caracteristici este capacitatea de a transmite date într-o varietate de formate, cum ar fi HTML, PHP sau Markdown Extra, astfel încât să puteți continua să lucrați cu datele tabulare într-un alt instrument sau limbă.

Creat de: Serghei Astanin
Unde să aflați mai multe: https://pypi.python.org/pypi/tabulate

scrubadub

Oamenii de știință de date din domenii precum sănătatea și finanțele trebuie să anonimizeze în mod regulat seturile de date. scrubadub elimină informațiile de identificare personală (PII) din textul liber, cum ar fi:

  • Nume (substantive proprii)
  • Adrese de email
  • URL-uri
  • Numere de telefon
  • combinații de nume de utilizator/parolă
  • Numele de utilizator Skype
  • Numere de securitate socială

Documentația face o treabă bună de a arăta modalități prin care ați putea dori să personalizați comportamentul scrubadub, cum ar fi definirea de noi tipuri de PII sau excluderea anumitor tipuri de PII de la spălare.

Săgeată

Să fim sinceri: lucrul cu datele și orele în Python este o durere. Fusurile orare locale nu sunt recunoscute automat. Este nevoie de mai multe linii de cod neplăcut pentru a converti fusurile orare și marcajele de timp.

Arrow își propune să remedieze aceste probleme și să conecteze lacunele de funcționalitate pentru a vă ajuta să gestionați datele și orele cu mai puțin cod și mai puține importuri. Spre deosebire de biblioteca standard Python, Arrow este conștientă de fusul orar și UTC în mod implicit. Puteți converti fusuri orare sau analiza șiruri folosind o linie de cod.

Creat de: Chris Smith
Unde să aflați mai multe: http://arrow.readthedocs.io/en/latest/

Înfrumusețator

Misiunea Beautifier este simplă: curățați și precizați adresele URL și adresele de e-mail. Puteți analiza e-mailurile după domeniu și nume de utilizator; Adrese URL după domeniu și parametri (de exemplu, UTM-uri sau jetoane).

ftfy (remediază textul pentru dvs.) acceptă ieșiri Unicode rele Unicode bune. Practic, remediază toate personajele nedorite. „citatele” \ x9d devin „ghilimele”; ü devine ü; devine. Dacă lucrați zilnic cu text, această bibliotecă este, așa cum spune un utilizator, „o piesă de magie la îndemână”.

Alte resurse pentru date de luptă

Iată câteva dintre citirile noastre preferate despre datele munging/wrangling/cleansing.