Ce este Open Data?

În termeni simpli, Open Data înseamnă tipul de date care este deschis pentru oricine și toată lumea pentru acces, modificare, reutilizare și partajare.

cele

Open Data își derivă baza din diverse „mișcări deschise”, cum ar fi open source, hardware deschis, guvern deschis, știință deschisă etc.

Guvernele, organizațiile independente și agențiile s-au prezentat pentru a deschide porțile de date pentru a crea din ce în ce mai multe date deschise pentru acces gratuit și ușor.

De ce sunt importante datele deschise?

Datele deschise sunt importante, deoarece lumea a crescut din ce în ce mai mult bazată pe date. Dar dacă există restricții privind accesul și utilizarea datelor, ideea de afaceri și guvernare bazate pe date nu se va concretiza.

Prin urmare, datele deschise au propriul loc unic. Poate permite o mai bună înțelegere a problemelor globale și a problemelor universale. Poate da un mare impuls întreprinderilor. Poate fi un mare impuls pentru învățarea automată. Poate ajuta la combaterea problemelor globale, cum ar fi bolile sau criminalitatea sau foametea. Datele deschise pot împuternici cetățenii și, prin urmare, pot întări democrația. Poate raționaliza procesele și sistemele pe care societatea și guvernele le-au construit. Poate ajuta la transformarea modului în care înțelegem și interacționăm cu lumea.

Iată deci lista mea cu 15 surse minunate de date deschise:

1. Date deschise ale Băncii Mondiale

Fiind un depozit al celor mai cuprinzătoare date din lume cu privire la ceea ce se întâmplă în diferite țări din întreaga lume, datele deschise ale Băncii Mondiale sunt o sursă vitală de date deschise. De asemenea, oferă acces și la alte seturi de date menționate în catalogul de date.

Datele deschise ale Băncii Mondiale sunt masive, deoarece are 3000 de seturi de date și 14000 de indicatori care cuprind microdate, statistici de serii temporale și date geospațiale.

Accesarea și descoperirea datelor dorite este, de asemenea, destul de ușoară. Tot ce trebuie să faceți este să specificați numele indicatorilor, țările sau subiectele și va deschide comoara de date deschise pentru dvs. De asemenea, vă permite să descărcați date în diferite formate, cum ar fi CSV, Excel și XML.

Dacă sunteți jurnalist sau academic, veți fi încântați de gama de instrumente disponibile. Puteți obține acces la instrumente de analiză și vizualizare care vă pot întări cercetarea. Poate felicita o înțelegere mai profundă și mai bună a problemelor globale.

Puteți obține acces la API, care vă poate ajuta să creați vizualizările de date de care aveți nevoie, combinații live cu alte surse de date și multe altele astfel de caracteristici.

Prin urmare, nu este o surpriză faptul că datele deschise ale Băncii Mondiale sunt în fruntea oricărei liste de surse de date deschise!

2. OMS (Organizația Mondială a Sănătății) - Depozit de date deschise

Depozitul Open Data al OMS este modul în care OMS ține evidența statisticilor specifice sănătății din 194 de state membre.

Depozitul păstrează datele organizate sistematic. Poate fi accesat conform diferitelor nevoi. De exemplu, indiferent dacă este vorba de mortalitate sau de sarcina bolilor, se pot accesa date clasificate în 100 sau mai multe categorii, cum ar fi Obiectivele de dezvoltare ale mileniului (nutriția copilului, sănătatea copilului, sănătatea maternă și reproductivă, imunizarea, HIV/SIDA, tuberculoza, malaria, boli neglijate, apă și canalizare), boli netransmisibile și factori de risc, boli predispuse la epidemii, sisteme de sănătate, sănătate a mediului, violență și vătămări, echitate etc.

Pentru nevoile dvs. specifice, puteți parcurge seturile de date în funcție de teme, categorie, indicator și țară.

Lucrul bun este că este posibil să descărcați orice date de care aveți nevoie în format Excel. De asemenea, puteți monitoriza și analiza datele folosind portalul său de date.

API-ul pentru conținutul de date și statistici al Organizației Mondiale a Sănătății este, de asemenea, disponibil.

3. Google Public Data Explorer

Lansat în 2010, Google Public Data Explorer vă poate ajuta să explorați cantități mari de seturi de date de interes public. Puteți vizualiza și comunica datele pentru utilizările respective.

Face disponibile datele de la diferite agenții și surse. De exemplu, puteți accesa date de la Banca Mondială, Biroul Statisticilor Muncii din SUA și S.U.A. Biroul, OCDE, FMI și altele.

Diferite părți interesate accesează aceste date pentru diverse scopuri. Fie că sunteți student sau jurnalist, fie că sunteți factor de decizie politică sau academic, puteți utiliza acest instrument pentru a crea vizualizări ale datelor publice.

Puteți implementa diferite moduri de reprezentare a datelor, cum ar fi grafice liniare, grafice cu bare, hărți și diagrame cu ajutorul Data Explorer.

Cea mai bună parte este că veți găsi aceste vizualizări destul de dinamice. Înseamnă că le veți schimba în timp. Puteți schimba subiectele, vă puteți concentra pe diferite intrări și puteți modifica scala.

De asemenea, este ușor de partajat. De îndată ce pregătiți graficul, îl puteți încorpora pe site-ul sau blogul dvs. sau pur și simplu puteți partaja un link cu prietenii.

4. Registrul datelor deschise pe AWS (RODA)

Acesta este un depozit care conține seturi de date publice. Sunt date disponibile din resursele AWS.

În ceea ce privește RODA, puteți descoperi și distribui datele disponibile publicului.

În RODA, puteți utiliza cuvinte cheie și etichete pentru tipuri comune de date, cum ar fi genomică, imagini din satelit și transport, pentru a căuta orice date pe care le căutați. Toate acestea sunt posibile pe o interfață web simplă.

Pentru fiecare set de date, veți descoperi pagina de detalii, exemple de utilizare, informații despre licență și tutoriale sau aplicații care utilizează aceste date.

Folosind o gamă largă de produse de calcul și de analiză a datelor, puteți analiza datele deschise și puteți construi orice servicii doriți.

Deși datele pe care le accesați sunt disponibile prin intermediul resurselor AWS, trebuie să aveți în vedere că acestea nu sunt furnizate de AWS. Aceste date aparțin diferitelor agenții, organizații guvernamentale, cercetători, companii și persoane fizice.

5. Portalul de date deschise al Uniunii Europene

Puteți accesa orice date deschise instituțiile, agențiile și alte organizații ale UE publică pe o singură platformă și anume Portalul de date deschise al Uniunii Europene.

Portalul de date deschise al UE găzduiește date deschise vitale referitoare la domeniile politice ale UE. Aceste domenii de politici includ economia, ocuparea forței de muncă, știința, mediul și educația.

Aproximativ 70 de instituții, organizații sau departamente ale UE precum Eurostat, Agenția Europeană de Mediu, Centrul Comun de Cercetare și alte direcții generale ale Comisiei Europene și agenții ale UE și-au făcut publice seturile de date și au permis accesul. Aceste seturi de date au depășit numărul de 11700 până în prezent.

Portalul oferă acces ușor. Puteți căuta, explora, conecta, descărca și reutiliza datele cu ușurință printr-un catalog de metadate comune. Puteți face acest lucru pentru scopurile dvs. specifice. Ar putea fi în scopuri comerciale sau necomerciale.

Puteți căuta catalogul de metadate printr-un motor de căutare interactiv (fila Date) și interogări SPARQL (fila Date conectate).

Folosind acest catalog, puteți obține acces la datele stocate pe diferitele site-uri web ale instituțiilor, agențiilor și organizațiilor UE.

6. FiveThirtyEight

Este un site excelent pentru jurnalism bazat pe date și povestiri.

Oferă diversele sale surse de date pentru o varietate de sectoare, cum ar fi politica, sportul, știința, economia etc. Puteți descărca și datele.

Când accesați datele, veți întâlni o scurtă explicație cu privire la fiecare set de date cu privire la sursa sa. De asemenea, veți afla ce înseamnă și cum să îl utilizați.

Pentru a face aceste date ușor de utilizat, oferă seturi de date în formate cât mai simple, neproprietare, cum ar fi fișierele CSV. Inutil să spun că aceste formate pot fi accesate și procesate cu ușurință atât de oameni, cât și de mașini.

Cu ajutorul acestor seturi de date, puteți crea povești și vizualizări conform propriilor cerințe și preferințe.

7. S.U.A. Biroul recensământului

S.U.A. Census Bureau este cea mai mare agenție statistică a guvernului federal. Stochează și furnizează fapte și date fiabile cu privire la oameni, locuri și economia Americii.

Biroul de recensământ consideră nobila sa misiune de a-și extinde serviciile drept cel mai fiabil furnizor de date de calitate.

Fie că este vorba de un guvern federal, de stat, local sau tribal, toți folosesc datele recensământului pentru o varietate de scopuri. Aceste guverne folosesc aceste date pentru a determina locația noilor locuințe și a facilităților publice. De asemenea, ei o folosesc la momentul examinării caracteristicilor demografice ale comunităților, statelor și SUA.

Aceste date sunt folosite și în planificarea sistemelor de transport și a căilor rutiere. Când vine vorba de stabilirea cotelor și crearea secțiilor de poliție și de pompieri, aceste date sunt utile. Când guvernele creează zone localizate ale alegerilor, școlilor, utilităților etc., ele folosesc aceste date. Este o practică de a compila informații despre populație o dată pe deceniu și aceste date sunt destul de utile pentru realizarea acelorași.

Există diverse instrumente precum American Fact Finder, Census Data Explorer și Quick Facts, care sunt utile în cazul în care doriți să căutați, să personalizați și să vizualizați date.

De exemplu, Quick Facts conține statistici pentru toate statele, județele, orașele și chiar orașele cu o populație de 5000 sau mai mult.

La fel, American Fact Finder vă poate ajuta să descoperiți fapte populare, cum ar fi populația, venitul etc. Oferă informații care sunt solicitate frecvent.

Lucrul bun este că puteți căuta, interacționa cu datele, puteți cunoaște statistici populare și puteți vedea graficele aferente prin Census Data Explorer. Mai mult, puteți utiliza și un instrument vizual pentru a personaliza datele dintr-o experiență de hărți interactive.

8. Data.gov

Data.gov este tezaurul datelor deschise ale guvernului SUA. Abia recent s-a luat decizia de a pune la dispoziție gratuit toate datele guvernamentale.

Când a fost lansat, erau doar 47. Acum există 180.000 de seturi de date.

De ce Data.gov este o resursă excelentă se datorează faptului că puteți găsi date, instrumente și resurse pe care le puteți implementa pentru o varietate de scopuri. Puteți să vă desfășurați cercetările, să vă dezvoltați aplicațiile web și mobile și chiar să proiectați vizualizări de date.

Tot ce trebuie să faceți este să introduceți cuvinte cheie în caseta de căutare și să navigați printre tipuri, etichete, formate, grupuri, tipuri de organizații, organizații și categorii. Acest lucru va facilita accesul ușor la date sau seturi de date de care aveți nevoie.

Data.gov urmărește schema de date deschise a proiectului - un set de câmpuri necesare (titlu, descriere, etichete, ultima actualizare, editor, nume de contact etc.) pentru fiecare set de date afișat pe Data.gov.

9. DBpedia

După cum știți, Wikipedia este o sursă excelentă de informații. DBpedia își propune să obțină conținut structurat din informațiile valoroase create de Wikipedia.

Cu DBpedia, puteți căuta și explora semantic relațiile și proprietățile resursei Wikipedia. Aceasta include și linkuri către alte seturi de date conexe.

Există aproximativ 4,58 milioane de entități în setul de date DBpedia. 4,22 milioane sunt clasificate în ontologie, inclusiv 1.445.000 de persoane, 735.000 de locuri, 123.000 de albume muzicale, 87.000 de filme, 19.000 de jocuri video, 241.000 de organizații, 251.000 de specii și 6.000 de boli.

Există etichete și rezumate pentru aceste entități în aproximativ 125 de limbi. Există 25,2 milioane de linkuri către imagini. Există 29,8 milioane de linkuri către pagini web externe.

Tot ce trebuie să faceți pentru a utiliza DBpedia este să scrieți interogări SPARQL împotriva endpoint-ului sau descărcând dumpurile lor.

DBpedia a beneficiat de mai multe întreprinderi, cum ar fi Apple (prin Siri), Google (prin Freebase și Google Knowledge Graph) și IBM (prin Watson), în special proiectele lor prestigioase asociate cu inteligența artificială.

10. freeCodeCamp Open Data

Este o comunitate open source. De ce contează este faptul că vă permite să codificați, să creați proiecte pro bono după organizații non-profit și să ocupați un loc de muncă ca dezvoltator.

Pentru a face acest lucru, comunitatea freeCodeCamp.org pune la dispoziție cantități enorme de date în fiecare lună. Au transformat-o în date deschise.

Veți găsi o varietate de lucruri în acest depozit. Puteți găsi seturi de date, analiza acelorași și chiar demonstrații ale proiectelor pe baza datelor freeCodeCamp. De asemenea, puteți găsi linkuri către proiecte externe care implică datele freeCodeCamp.

Vă poate ajuta cu o varietate de proiecte și sarcini pe care le-ați putea avea în vedere. Fie că este vorba de analize web, analize social media, analize rețele sociale, analize educaționale, vizualizare date, dezvoltare web bazată pe date sau roboți, datele oferite de această comunitate pot fi extrem de utile și eficiente.

11. Seturi de date deschise Yelp

Setul de date Yelp este practic un subset de nimic altceva decât propriile noastre companii, recenzii și date despre utilizatori pentru a fi utilizate în activități personale, educaționale și academice.

Există 5.996.996 recenzii, 188.593 companii, 280.991 imagini și 10 zone metropolitane incluse în seturile de date deschise din Yelp.

Le puteți folosi în scopuri diferite. Deoarece sunt disponibile ca fișiere JSON, le puteți utiliza pentru a învăța elevii despre bazele de date. Le puteți folosi pentru a învăța NLP sau pentru prelevarea de eșantioane de date în timp ce înțelegeți cum să proiectați aplicații mobile.

În acest set de date, veți găsi fiecare fișier compus dintr-un singur tip de obiect, un obiect JSON per linie.

12. UNICEF Dataset

Deoarece UNICEF se preocupă de o mare varietate de probleme critice, a compilat date relevante privind educația, munca copiilor, dizabilitățile copiilor, mortalitatea copiilor, mortalitatea maternă, apa și canalizarea, greutatea redusă la naștere, îngrijirea prenatală, pneumonia, malaria, deficitul de iod tulburări, mutilarea/tăierea organelor genitale feminine și adolescenți.

Seturile de date deschise ale UNICEF publicate în Registrul IATI: http://www.iatiregistry.org/publisher/unicef ​​au fost extrase direct din sistemul de operare UNICEF (VISION) și din alte sisteme de date și reflectă intrările făcute de birourile individuale ale UNICEF.

Lucrul bun este că există o actualizare regulată atunci când vine vorba de aceste seturi de date. În fiecare lună, datele sunt actualizate pentru a le face mai cuprinzătoare, mai fiabile și mai exacte.

Puteți accesa în mod liber și ușor aceste date. Pentru a face acest lucru, puteți descărca aceste date în format CSV. De asemenea, puteți previzualiza datele eșantion înainte de a le descărca.

Deși oricine poate explora și vizualiza seturile de date UNICEF, există trei editori principali:

PORTALUL DE TRANSPARENȚĂ A AJUTORULUI UNICEF: Puteți accesa mult mai ușor seturile de date dacă utilizați acest portal. De asemenea, include detalii pentru fiecare țară în care lucrează UNICEF.

Publisher d-portal: se află, în acest moment, în versiunea BETA. Cu acest portal, puteți explora datele IATI.

Puteți căuta informații legate de activități de dezvoltare, bugete etc. Puteți explora aceste informații în funcție de țară.

Platforma de date a editorului: pe această platformă, puteți accesa cu ușurință statistici, diagrame și valori privind datele accesate prin Registrul IATI. Dacă faceți clic pe anteturi, puteți sorta, de asemenea, multe dintre tabelele pe care le vedeți pe platformă. Veți găsi, de asemenea, multe dintre seturile de date în platforme în format JSON lizibil de mașină.

13. Kaggle

Kaggle este minunat, deoarece promovează utilizarea diferitelor formate de publicare a seturilor de date. Cu toate acestea, partea cea mai bună este că recomandă cu tărie editorilor de seturi de date să își partajeze datele într-un format accesibil, neproprietar.

Platforma acceptă formate de date deschise și accesibile. Este important nu doar pentru acces, ci și pentru orice doriți să faceți cu aceste date. Prin urmare, Kaggle Dataset definește clar formatele de fișiere care sunt recomandate în timpul partajării datelor.

Singurul lucru despre seturile de date Kaggle este că nu este doar un depozit de date. Fiecare set de date reprezintă o comunitate care vă permite să discutați date, să aflați coduri și tehnici publice și să vă conceptualizați propriile proiecte în Kernels.

CSV, JSON, SQLite, Archive, Big Query etc. sunt tipuri de fișiere acceptate de Kaggle. Puteți găsi o varietate de resurse pentru a începe să lucrați la proiectul dvs. de date deschise.

Cea mai bună parte este că Kaggle vă permite să publicați și să partajați seturi de date în mod privat sau public.

14. LODUM

Este inițiativa Open Data a Universității din Münster. În cadrul acestei inițiative, este posibil ca oricine să acceseze orice informații publice despre universitate în formate care pot fi citite automat. Puteți să îl accesați cu ușurință și să îl refolosiți conform nevoilor dvs.

Datele deschise despre artefacte științifice și codificate ca date legate sunt puse la dispoziție în cadrul acestui proiect.

Cu ajutorul datelor conectate, este posibil să partajați și să utilizați date, ontologii și diverse standarde de metadate. De fapt, se preconizează că acesta va fi standardul acceptat pentru furnizarea de metadate și datele în sine pe web.

Puteți utiliza editorul SPARQL sau pachetul SPARQL de R pentru a analiza datele.

Pachetul SPARQL permite conectarea la un punct final SPARQL prin HTTP, pozarea unei interogări SELECT sau a unei interogări de actualizare (LOAD, INSERT, DELETE).

15. Depozitul UCI Machine Learning

Acesta servește ca un depozit cuprinzător de baze de date, teorii de domenii și generatoare de date care sunt utilizate de comunitatea de învățare automată pentru analiza empirică a algoritmilor de învățare automată.

În acest depozit, există, în prezent, 463 de seturi de date ca serviciu pentru comunitatea de învățare automată.

Centrul de învățare automată și sisteme inteligente de la Universitatea din California, Irvine, îl găzduiește și îl întreține. David Aha a creat-o inițial ca student absolvent la UC Irvine.

De atunci, studenții, educatorii și cercetătorii din întreaga lume îl folosesc ca o sursă fiabilă de seturi de date de învățare automată.

Cum funcționează este faptul că fiecare set de date are pagina sa web distinctă, care înregistrează toate detaliile cunoscute, inclusiv orice publicații relevante care o investighează. Puteți descărca aceste seturi de date ca fișiere ASCII, adesea formatul CSV util.

Detaliile seturilor de date sunt rezumate pe aspecte precum tipurile de atribute, numărul de instanțe, numărul de atribute și anul publicării care pot fi sortate și căutate.

Portaluri de date deschise și motoare de căutare:

Deși există o mulțime de seturi de date publicate de numeroase agenții în fiecare an, foarte puține seturi de date devin recunoscute și stabilite.

Motivul pentru care foarte puține astfel de seturi de date se susțin ca o resursă utilă este că este o provocare să dezvoltăm, să gestionăm și să furnizăm datele într-un mod în care oamenii și organizațiile să le găsească utile și ușor de utilizat.

Cu toate acestea, găsiți mai jos o listă cu alte câteva portaluri și platforme importante de date deschise care permit utilizatorilor să acceseze datele deschise destul de ușor, să studieze impactul și să obțină informații valoroase.

Concluzie

Datele deschise sunt la ordinea zilei. Lumea a început treptat să se îndrepte spre sisteme deschise, iar datele deschise sunt sincronizate pe bună dreptate cu asta.

Companiile și organizațiile care valorifică datele deschise vor câștiga un avantaj competitiv și vor putea domina viitorul.