Introducere

Zilele în care s-ar obține date în foi de calcul tabelate sunt cu adevărat în spatele nostru. Un moment de reculegere pentru datele care se află în buzunarele foii de calcul. Astăzi, mai mult de 80% din date sunt nestructurate - sunt fie prezente în silozuri de date, fie împrăștiate în arhivele digitale. Datele sunt produse pe măsură ce vorbim - de la fiecare conversație pe care o purtăm în social media până la fiecare conținut generat din surse de știri. Pentru a produce orice informație semnificativă care poate fi acționată din date, este important să știm cum să lucrați cu acestea în forma sa nestructurată. În calitate de cercetător de date la una dintre cele mai rapide companii cu creștere a științelor decizionale, pâinea și untul meu provin din obținerea unor informații semnificative din informații text nestructurate.

python

Unul dintre primii pași în lucrul cu datele text este pre-procesarea acestora. Este un pas esențial înainte ca datele să fie pregătite pentru analiză. Majoritatea datelor text disponibile sunt extrem de nestructurate și zgomotoase - pentru a obține informații mai bune sau pentru a construi algoritmi mai buni, este necesar să se joace cu date curate. De exemplu, datele din rețelele de socializare sunt extrem de nestructurate - este o comunicare informală - greșeli de greșeală, gramatică proastă, folosirea argoului, prezența conținutului nedorit, cum ar fi adresele URL, cuvintele cheie, expresiile etc. sunt suspecții obișnuiți.

Prin urmare, în acest blog discut despre aceste posibile elemente de zgomot și despre cum le-ați putea curăța pas cu pas. Ofer modalități de curățare a datelor folosind Python.

Ca o problemă tipică de afaceri, presupuneți că sunteți interesat să aflați: care sunt caracteristicile unui iPhone care sunt mai populare în rândul fanilor. Ați extras părerile consumatorilor legate de iPhone și iată un tweet pe care l-ați extras:

„Îmi place și ceea ce se încorporează în datele originale. Este astfel necesar să scăpați de aceste entități. O abordare este de a le elimina direct folosind expresii regulate specifice. O altă abordare este de a utiliza pachete și module adecvate (de exemplu htmlparser of Python), care pot converti aceste entități în etichete html standard. De exemplu:

Fragment:

Ieșire:

Fragment:

Rezultat:

Fragment:

Rezultat:

Fragment:

Rezultat:

Fragment:

Rezultat:

Tweet curatat final:

>> „Îmi place iPhone-ul meu și ești un mere minunat. Afișajul este minunat, atât de fericit! ”,