„Proiectul etichetei nutriționale Dataset” abordează Dataset Health and Standards de Berkman Klein Center

ro.waykun.com - Pași pentru a slăbi mâine

Folosim algoritmi pentru a lua decizii în fiecare zi, de la găsirea rutei cel mai puțin traficate, la navigarea în știri, la luarea deciziilor de angajare la locul de muncă. Pe măsură ce luarea deciziilor algoritmice devine mai răspândită, există o mulțime de lucrări importante de făcut pentru a se asigura că algoritmii sunt dezvoltați cu atenție la acuratețe, părtinire și corectitudine. Din ce în ce mai mult, jurnaliștii și academicienii investighează și expun părtinirea rezultatelor algoritmice, dar s-a acordat mai puțină atenție părtinirii din datele utilizate pentru instruirea acestor algoritmi.

Dataset Nutrition Label Project (DNLP), care a fost creat în cadrul programului de asamblare din 2018 găzduit de Berkman Klein Center și MIT Media Lab, încearcă să abordeze acest punct orb în înțelegerea noastră asupra sănătății și calității datelor.

Premisa proiectului este simplă. Integritatea unui model de învățare automată este bazată fundamental pe datele utilizate pentru instruirea acestuia - așa cum se spune, „gunoi în, gunoi în afara”. În loc să aștepte să evalueze modelele după ce au fost create, DNLP își propune să faciliteze evaluarea rapidă a viabilității și aptitudinii unui set de date, înainte de a fi utilizat pentru a antrena un model, dându-i o etichetă „nutrițională”.

În 2018, echipa DNLP a dezvoltat măsuri de sănătate a seturilor de date cantitative și calitative. Acum, echipa lucrează pentru a împacheta aceste măsuri într-o „etichetă nutrițională a setului de date” ușor de utilizat. Consultați aici prima lor etichetă prototip, construită pe setul de date ProPublica’s Dollars for Docs. Echipa a scris, de asemenea, o carte albă care explică cadrul lor și conceptul de etichetă nutrițională a setului de date.

De la programul de asamblare de anul trecut, proiectul a crescut și a evoluat. Am vorbit cu patru dintre membrii echipei actuale ai proiectului - Kasia Chmielinski, liderul proiectului; Sarah Newman, cercetător și strateg; Josh Joseph, Cercetător AI; și Matt Taylor, om de știință de date și facilitator de atelier - pentru a afla mai multe despre modul în care Adunarea i-a reunit și la ce lucrează acum. Interviul a fost editat pentru claritate.

Adunarea adună o mică cohortă de tehnologi, manageri, decidenți politici și alți profesioniști pentru a face față problemelor emergente legate de etica și guvernanța inteligenței artificiale. Programul de patru luni începe cu un proces intensiv de idei de două săptămâni și un curs scurt, în timpul căruia participanții încep să formeze echipe de proiect. Aceasta este urmată de o perioadă de dezvoltare colaborativă de douăsprezece săptămâni, când echipa își construiește proiectele.

Anul trecut a fost a doua versiune a Adunării, cu o cohortă de nouăsprezece persoane. Până la sfârșitul programului, grupul a creat șase proiecte, inclusiv DNLP.

În timpul interviului nostru, echipa DNLP a vorbit despre modul în care programul Adunării i-a reunit și a încurajat colaborarea interdisciplinară.

IOS IOSIF: Ca inginer AI, îmi place foarte mult să construiesc lucruri. Sincer să fiu, înainte de program, nu mă gândisem atât de greu la o mulțime de etică, politici, guvernanță și drept legate de AI. Asamblarea a fost o modalitate de a gândi mai profund la întrebări importante precum „ce înțelegem prin părtinire?” Și, în același timp, de a lucra efectiv la un proiect și de a construi ceva cu oameni care nu sunt toți ingineri. Ca inginer, am obținut multe din provocarea mea în acest fel.

KASIA CHMIELINSKI: De acord. În conversația tehnică etică, se poate simți adesea că există oameni care construiesc tehnologie și apoi există oameni care scriu lucrări despre implicațiile acestei tehnologii. Este rar ca aceștia să poată veni împreună pentru a colabora. Adunarea a fost o oportunitate de a ne gândi la etică și de a pune în aplicare idei în aceste discipline. Grupul nostru este foarte divers. Ne gândim la artă și media, la învățare, la gestionarea produselor și la inginerie. Și asta se reflectă în rezultatele proiectului nostru: un prototip, dar și o lucrare, iar acum vorbim, de asemenea, în mod regulat pe mai multe domenii. Sunt foarte bucuros pentru oportunitatea de a purta aceste conversații în întreaga industrie.

SARAH NEWMAN: Adunarea reunește oameni cu medii foarte diferite, iar programul încurajează și facilitează colaborarea, ceea ce face rezultate cu adevărat unice. Am venit cu un limbaj comun și am fost generosi unul cu celălalt și am conceput proiecte care au fost mai puternice decât ar fi fost altfel, datorită perspectivelor și abordărilor noastre variate pentru rezolvarea problemelor.

Un lucru este să mergi la un eveniment sau la o conferință în care există oameni care provin din diferite domenii sau sectoare diferite. Vă întâlniți, schmooze, vorbiți despre idei. Grozav. Dar există ceva foarte diferit în lucrul efectiv cu oameni dintr-o echipă; trecând prin urcușuri și coborâșuri, tensiuni, succese, fiind într-adevăr în procesul de a lucra împreună. Conexiunea devine mult mai profundă. Deci, unul dintre marile beneficii ale Asamblării pentru proiectul nostru a fost această colaborare între sectoare.

MATT TAYLOR: Newman a menționat modul în care Adunarea a facilitat colaborarea. Gândindu-ne la experiența generală, sesiunile de bază pe care le-am făcut în primele două săptămâni au fost esențiale. Există două momente specifice care au fost emblematice pentru mine.

În primul rând, spre sfârșitul primei zile, am stabilit reguli de bază și linii directoare pentru modul în care am vrut să fim unul cu celălalt, facilitate de doi dintre colegii noștri asamblatori, Newman și David Colby Reed. Este ceva ce nu văd des în spații mai tehnice sau academice. Cred că este o practică valoroasă. A fost util pentru a ne permite să dialogăm între noi.

În al doilea rând, am făcut o activitate de „grupare k-înseamnă”, condusă de colegul Gretchen Greene, care a fost o versiune întruchipată a modului în care funcționează algoritmul de grupare k-mediu particular. Cu toții am interpretat fizic pașii algoritmului. Am putea participa cu toții, venind din perspectiva tehnică, politică, artistică. A fost un alt exemplu al modului în care fiecare și-a adus expertiza pentru a ajuta grupul să creeze un limbaj comun pentru a aborda aceste proiecte.

În timpul programului Adunării, cohorta petrece primele două săptămâni împărțind în echipe de proiect și dezvoltând idei de proiect. În următoarele douăsprezece săptămâni, fiecare echipă lucrează împreună pentru a-și dezvolta proiectele. Echipele sunt susținute de un grup de consilieri experți, practicanți și cadre universitare care oferă feedback cu privire la idei și rezultate. Am cerut echipei DNLP să ne spună puțin despre modul în care proiectul lor a fost cuprins și dezvoltat.

KASIA: Am fost managerul de produs al echipei. După ce am avut o idee - construirea standardelor în jurul seturilor de date - ne-am așezat să ne dăm seama ce putem face de fapt în patru luni. Ceea ce este o perioadă foarte scurtă de timp! Pentru o vreme, ne gândeam că putem fie să creăm un prototip de etichetă, fie să scriem un document de politică. În schimb, am decis să le facem pe amândouă. Ne-am dat seama că avem toate seturile de abilități de care aveam nevoie. Pentru mine, a fost un moment foarte puternic la începutul proiectului, care a fost posibil, deoarece Assembly a adus toate aceste talente diverse pe masă.

Ideea noastră ne cere, de asemenea, să vorbim constant cu oameni din afara proiectului nostru, să ne dăm seama care ar trebui să fie standardele și să avem acces la seturile de date relevante.

OM NOU: Am ales să creăm o „etichetă nutrițională”, spre deosebire de dezvoltarea altor rezultate potențiale din câteva motive. În primul rând, este familiar, accesibil, modular, lizibil și se traduce în mai multe medii.

În al doilea rând, o etichetă nutrițională a setului de date poate acționa ca un instrument educațional, pentru a arăta că rezultatele algoritmilor provin de undeva: datele de instruire. Sperăm că ideea etichetei nutriționale a setului de date va stimula o conversație mai largă. Vrem să îi inspirăm pe oameni să privească fiecare set de date care va fi utilizat pentru a construi un model și să întrebe „Care este conținutul acestui set de date? Este acesta setul de date potrivit pentru a construi acest model? ” Credem că existența etichetelor nutriționale pe seturile de date va încuraja interogarea mai largă a conținutului setului de date și a potrivirii acestora.

KASIA: Din punct de vedere tehnic, cadrul nostru de etichetare este modular. Nu folosim exact aceleași informații pentru fiecare set de date, ci în schimb folosim același cadru de etichete, prin care oamenii de știință de date pot rula datele. În timp ce ne construiam prototipul, folosind setul de date ProPublica’s Dollars for Docs, am vrut să încercăm un modul bazat pe calcul probabilistic. Prin Assembly, ne-am conectat cu grupul de calcul probabilistic de la MIT. Am reușit să folosim instrumentul lor, numit BayesDB, care ne permite să comparăm datele din eticheta prototipului cu alte seturi de date similare, pentru a vedea unde pătrund prejudecățile.

JOSH: Conexiunea BayesDB este excelentă, deoarece au o mulțime de instrumente foarte frumoase pentru a găsi probleme în datele dvs. Am fi putut să construim instrumente similare, dar ne-ar fi luat mult mai mult. În schimb, prin colaborarea cu BayesDB, am reușit să facem mult mai mult decât am fi făcut altfel.

OM NOU: În timpul Adunării, simți că te afli într-o comunitate care are pulsul a ceea ce se întâmplă legat de etica și guvernarea AI. Cercurile mai largi și imediate aduc valoare programului susținând proiecte, punându-vă în contact cu oamenii, acționând ca un control intestinal și asigurându-vă că nu reinventați roata.

KASIA: Proiectul nostru continuă să fie condus de voluntari și condus. Toamna trecută, ne-am reunit pentru a planifica ceea ce vrem să facem în 2019. În toamnă, am avut și ocazia să dezvolt în continuare proiectul în calitate de Mozilla Open Leaders Fellow. Obiectivul pentru acest an este de a purta mai multe conversații în acest spațiu, de a avansa tehnic cu prototipul și de a scoate povestea noastră acolo.

În ianuarie și februarie, vom vorbi la CPDP (Calculatoare, confidențialitate și protecția datelor) din Bruxelles și SXSW din Austin. De asemenea, vom organiza ateliere și vom lucra cu colaboratori la MIT pentru a îmbunătăți capacitatea tehnică a proiectului.

MATT: Sunt interesat în special să folosesc eticheta nutrițională a setului de date ca mijloc de implicare a mai multor persoane în această conversație. Deci, ne gândim la schimbarea comportamentului și, de asemenea, la schimbarea dinamicii conversației. Întrebarea nu este doar cine sunt comunitățile care nu pot face parte din conversație - ci cine sunt subiectele de părtinire care ar trebui să facă parte din conversație?

CPDP, miercuri. 30 ianuarie: Prindeți-l pe Kasia și pe alți doi studenți ai Adunării 2018, Sarah Holland și Jonnie Penn, vorbind la CPDP despre „Pârghierea„ etichetelor nutriționale ”și alte instrumente pentru o AI mai responsabilă”. Detalii sunt aici.
SXSW, mar. 11: Prinde-i pe Kasia și Sarah Holland la SXSW pe „Bias In, Bias Out”. Detalii aici.

A treia iterație a Adunării începe pe 11 martie 2019. Păstrați o privire asupra proiectelor mai interesante, deoarece acestea sunt dezvoltate în timpul programului!

Popular

Citesc acum

„Proiectul etichetei nutriționale a setului de date” abordează sănătatea și standardele setului de date