Cuprins:
Video: Introducerea datelor manuale după o perioadă de repaus de 2 săptămâni consecutive! (Noiembrie 2024)
La sfârșitul lunii mai a acestui an, la exact cinci luni de la inaugurarea celui de-al 45-lea președinte al Statelor Unite, un grup de oameni preocupați de poziția noii administrații față de știință și schimbările climatice au marcat propria aniversare specială.
Nu departe de campusul Universității din nordul Texasului, pe câmpiile de la nord de Dallas, câteva zeci de persoane s-au întâlnit la Data Rescue Denton pentru a identifica și descărca copii ale seturilor de date federale despre climă și mediu. Aceste întâlniri în stil hackathon au primit o atenție deosebită în zilele care precede inaugurarea; Denton a fost al 50-lea eveniment de acest fel din ianuarie.
Organizând inițial din îngrijorare că noua administrație ar putea să șteargă sau să obscureze climă și alte date de mediu, cele mai grave temeri ale salvatorilor de date păreau să devină realitate când una dintre primele acțiuni ale Casei Albe Trump a fost să șteargă paginile privind schimbările climatice de pe site-ul său web. Apoi, Departamentul de Agricultură al SUA, după ce a eliminat rapoartele de inspecție privind bunăstarea animalelor de pe site-ul său web, a răspuns unei solicitări a Legii privind libertatea informațională geografică națională cu 1.771 de pagini cu material complet redat.
Oricine poate accesa peste 153.000 de seturi de date federale prin intermediul portalului de date deschise al guvernului central la data.gov. Dar aceasta este doar o fracțiune din datele care există în nebuloasa birocrației guvernamentale, nu vă interesează niciodată fracția și mai mică care se află pe un server.
"Undeva, aproximativ 20 la sută din informațiile guvernamentale sunt accesibile web", a spus Jim Jacobs, bibliotecarul federal al informațiilor guvernamentale din Biblioteca Universității Stanford. "Este o bucată destul de mare de lucruri care nu sunt disponibile. Deși agențiile au propriile lor sisteme de gestionare a conținutului de wikis și de conținut, singura dată când afli despre unele dintre acestea este dacă cineva îl folosește."
Cu siguranță, o mare parte din informații au fost într-adevăr capturate și acum se află pe servere neguvernamentale. Între evenimentele și proiectele refugiatului de date, precum Crawl-ul de sfârșit a perioadei 2016, au fost arhivate peste 200TB de site-uri web și date guvernamentale. Dar organizatorii de salvare au început să realizeze că eforturile fragmentare pentru a face copii complete de terabyte ale datelor științifice ale agențiilor guvernamentale nu ar putea fi susținute în mod realist pe termen lung - ar fi ca și cum ai salva Titanicul cu un deget.
Deci, deși Data Rescue Denton a sfârșit a fi unul dintre ultimele evenimente organizate de acest gen, efortul colectiv a stimulat o comunitate mai largă să lucreze în concert pentru a face ca datele guvernamentale să poată fi descoperite, inteligibile și utilizabile, a scris Jacobs într-o postare pe blog.
În căutarea bibliotecilor
La Universitatea din Pennsylvania, Bethany Wiggin este directorul Programului Penn în Umanități de Mediu, unde a fost centrală pentru mișcarea de date refugiu, inițiatorul evenimentelor de salvare a datelor. Concentrația s-a schimbat acum, a spus ea, spre susținerea cadrelor naționale pentru eforturi pe termen lung, în loc de episoade periodice bazate local.
„Ne-am dat seama de abilitățile care au apărut în diverse locuri, făcând evenimente de salvare a datelor care ar putea fi scalate”, a spus Wiggin, în special în bibliotecile de cercetare. „Dar aceste eforturi se întâmplau înainte de a fi lansate. Puterea Data Refugiu a fost să crească aceste conexiuni; să catalizeze proiecte de lungă durată, cu mișcare lentă și să aruncăm o lumină asupra cât de importante sunt acestea."
În ultima perioadă, Wiggin a ajutat la lansarea în lanț a Bibliotecilor + Rețelei, un parteneriat în curs de dezvoltare al bibliotecilor de cercetare, organizațiilor bibliotecilor și grupurilor de date deschise catalizate pentru a extinde rolul tradițional al bibliotecilor în păstrarea accesului la informații. Printre participanți se numără biblioteca de cercetare a Universității Stanford, Biblioteca Digitală California și Fundația Mozilla, cu contribuții și colaborare de la entități la fel de largi precum Arhivele Naționale și ofițerii de date ai mai multor birouri federale.
Un proiect, de exemplu, este LOCKSS („o mulțime de copii păstrează lucrurile în siguranță”) pe care Jacobs le coordonează de câțiva ani. Se bazează pe același principiu ca o rețea de biblioteci vechi de 200 de ani, cunoscută sub numele de Federal Depozitor Library Library; aceste biblioteci sunt depozite oficiale de publicații ale Biroului de Imprimare al Guvernului SUA (GPO).
LOCKSS, în schimb, este o versiune digitală privată a acestui sistem, care până în prezent constă din 36 de biblioteci care recoltează publicații din GPO cu cooperarea sa. Este un model pentru modul în care informațiile digitale pot fi protejate împotriva ștergerii sau a alterării prin o largă dispersie fizică.
"Nu vă puteți asigura conservarea decât dacă aveți controlul conținutului", a spus Jacobs. "O parte din ceea ce a făcut bibliotecile depozitare importante și utile în ultimii 200 de ani a fost faptul că nimeni din guvern nu putea să editeze un document fără să meargă de fapt la 1.500 de biblioteci și să spună„ Da, schimbă această pagină aici."
Software-ul LOCKSS folosește verificarea cache-urilor de conținut la nivel de biți și îl compară cu conținutul deținut de alte biblioteci, despre care Jacobs a spus ajută la asigurarea conservării pe termen lung prin repararea fișierelor degradate.
John Chodacki, un alt colaborator cu Libraries + Network, este directorul curatării pentru Biblioteca Digitală din California, o facilitate de informații virtuale care servește toate cele 10 campusuri ale sistemului Universității din California. Lucrând cu dezvoltatorul Code pentru Știință și Societate, Max Ogden și Philip Ashlock, arhitect șef la data.gov, Chodacki spune că accentul lor a fost să folosească data.gov ca stradă cu două sensuri.
Ei au demonstrat mai întâi că salvarea datelor în sine ar putea fi mult mai eficientă prin colectarea unei copii a datelor.gov în sine și plasarea ei pe un site exterior, datamirror.org, cu scripturi de monitorizare care verifică actualizările. Apoi, Chodacki și colaboratorii au început, de asemenea, să examineze dacă seturile de date și metadatele contribuite la oglindă pot alimenta fluxurile de lucru data.gov existente ale agențiilor prin paginile cu cerne din oglindă.
În conformitate cu ordinul executiv Obama din 2013 prin care a fost publicată mandatarea datelor care pot fi citite automat în data.gov, agențiile ar fi în continuare responsabile de generarea înregistrărilor care sunt listate pe portalul respectiv; Ideea lui Chodacki și Ogden este că seturile de date sugerate de grup ajută pur și simplu la răspândirea volumului de muncă.
"Nu trebuie să reproducem întregul ecosistem", a spus Chodacki. „Guvernul federal și aceste agenții au avut de-a face cu datele de mult mai mult decât a fost zgomotos să vorbim despre date mari, într-un mod mult mai robust decât oricine altcineva”.
Parteneriate public-privat
Problema costurilor este una evidentă atunci când vine vorba despre modul în care agențiile sunt capabile să identifice ce seturi de date sunt cele mai valoroase pentru public, publicând apoi link-uri către metadatele lor sau seturile de date reale prin portalul guvernamental. Un raport al Biroului Bugetului Congresului (OCB) pentru proiectul de lege al OPEN privind legile guvernamentale aflat în prezent în Senat - care ar codifica ordinul executiv al Obama în lege - estimează că implementarea completă a acestuia ar costa 2 milioane de dolari între 2018 și 2021.
În termeni de bani guvernamentali, care nu reprezintă, în esență, creșteri reale ale cheltuielilor, a concluzionat CBO.
Eficiența este însă o altă întrebare, una cu care Ed Kearns de la National Oceanic and Atmospheric Administration experimentează împreună cu parteneri privați, inclusiv Amazon Web Services și Google. Kearns, responsabilul principal de date al NOAA, a declarat că creșterea disponibilității publice și utilizarea datelor NOAA este un obiectiv major al proiectului Big Data.
Companiile identifică seturile de date pe care le doresc și NOAA le transmite fără costuri suplimentare pentru public. Tot ce are NOAA este pe masă, a spus Kearns, dar obiectivul parteneriatului de cinci ani nu este să scoată toate datele NOAA pe cloud - doar bucăți strategice.
Găzduirea unor astfel de seturi de date pe serviciile cloud ale companiilor private oferă mai multe avantaje accesului FTP în stilul anilor 80, care este încă standard pentru transferul seturilor de date mari de la agențiile federale. Pentru început, seturile de date ale NOAA tind să fie vaste - agenția monitorizează oceanele Pământului, atmosfera, soarele și vremea spațială - și uneori necesită săptămâni sau luni pentru livrare publică.
Un exemplu este arhiva radar Doppler NEXRAD Level-II de înaltă rezoluție a agenției. Potrivit unui studiu publicat în mai de American Meteorological Society, transferul întregii arhive NEXRAD de 270 de terabyte către un singur client în octombrie 2015 ar fi luat 540 de zile cu un cost de 203.310 dolari. O copie completă a arhivei nu a fost niciodată disponibilă pentru analiză externă înainte ca NOAA să lucreze cu Amazon și Google pentru a pune una pe cloud.
Experimentul a avut, de asemenea, câteva rezultate timpurii interesante, cu creșteri ale utilizării. Pagini web meteo și prognoză ale NOAA primesc deja unele dintre cele mai ridicate niveluri de trafic printre site-urile guvernamentale, dar după ce Google a integrat recent un set de date climatice și meteo, cu o dimensiune mare, în baza sa de date BigQuery, compania a raportat livrarea a 1, 2 petabytes din acest set de date de la 1 ianuarie până la 30 aprilie - mult mai mult decât fusese accesat vreodată într-un interval de timp similar de pe serverele NOAA.
"Google a putut să-l deschidă unui public cu totul nou", a spus Kearns.
Nu este doar ploaie și temperaturi sezoniere. Seturile de date disponibile acum prin intermediul partenerilor Big Data includ informații despre pescuit, vremea marină și un catalog găzduit de IBM care listează seturi de date curente, prognoze, istorice și geospatiale din centrele NOAA. Viitoarele seturi de date ar putea include chiar și informații despre ecosistemele și genomica pescuitului.
Dar, prin proiectare, parteneriatul permite colaboratorilor să aleagă ceea ce își doresc cel mai mult, ceea ce prezintă riscul ca seturile de date obscure, dar potențial de mare valoare, să nu vadă prea mult lumina zilei. Kearns spune că este prea devreme pentru a spune ceea ce în cele din urmă poate fi identificat ca fiind valoros.
"Amploarea și amploarea a ceea ce se poate face cu aceste date este uimitor pentru noi", a adăugat el. "Nu ne putem imagina toate utilizările posibile."
La o scară mai mică, City of Philadelphia a lucrat, de asemenea, cu o entitate privată la publicarea seturilor de date, publicul a spus că va găsi cel mai util. Deși dimensiunea orașului îi conferă mai multă manevrabilitate operațională zilnică decât o entitate federală, modelul lui Philly reprezintă o abordare pentru strategia lansărilor de seturi de date încă nepublicate.
Azavea, o firmă software bazată pe Philly, specializată în vizualizarea datelor, a colaborat cu ofițerul principal de informații al orașului, Tim Wisniewski, pentru a dezvolta o listă de seturi de date nepublicate pe care organizațiile neprofit din oraș ar putea avea interes să le utilizeze. Wisniewski și Azavea au utilizat atât catalogul de metadate online al orașului, cât și contribuția de la departamentele orașului pentru a dezvolta lista. Azavea și alți parteneri au cumpărat apoi lista neprofiturilor din Philadelphia și au lansat OpenDataVote, o competiție pentru public pentru a vota proiectele propuse de acei nonprofit pentru modul în care ar folosi seturile de date preferate.
Un câștigător recent a fost o propunere înaintată de educația nonprofit MicroSociety pentru a utiliza datele orașului cu privire la donatorii din districtul școlar Philadelphia pentru a măsura impactul programelor nonprofit în școli.
„Putem spune că acest non-profit al orașului este interesat de un anumit set de date, deoarece pot face ceva cu acesta, și că această mulțime de oameni au votat pentru susținerea acestora”, a spus Wisniewski. "Ne permite să mergem la departamente cu un caz de utilizare solid în mână, mai degrabă decât să spunem, hei, eliberați aceste date doar pentru că."
Datele vechi și noul
Dar ce se întâmplă chiar și atunci când există o mulțime de acces la date care există deja, atunci când noile politici și directive de finanțare înseamnă că datele în sine nu se mai generează? Aceasta este o adevărată îngrijorare, a spus Ann Dunkin, care a funcționat în funcția de ofițer principal de informații la Agenția pentru Protecția Mediului sub președintele Obama și care acum conduce IT pentru județul Santa Clara din California.
„Oamenii sunt îngrijorați de datele vechi, dar ceea ce mă îngrijorează cel mai mult este faptul că datele noi nu sunt disponibile la același ritm ca înainte sau nu sunt deloc generate”, a spus Dunkin.
Într-o analiză a bugetului federal 2018 propus de revista Science, multe agenții guvernamentale ar realiza reduceri semnificative ale bugetelor lor de cercetare dacă bugetul va fi aprobat conform propunerii. O reducere de aproximativ 22% la Institutele Naționale de Sănătate ar contribui la plățile către universitățile de cercetare; cererea bugetului NASA ar elimina inițiativele de monitorizare a emisiilor de gaze cu efect de seră și a altor programe de știință terestră. Programele climatice la NOAA ar putea fi, de asemenea, închise cu reduceri similare.
În timpul mandatului său, APE a lucrat pentru a face colectarea de date într-un instrument pe care oricine îl poate folosi pentru a înțelege sănătatea mediului înconjurător și cum să reacționeze la acesta. Ziua de aer rău? Nu ieși afară. Curentul în modul poluat? Ține copiii departe.
"Asteptarea mea este că se va întoarce înapoi", a adăugat Dunkin. "Aș putea greși, dar dacă spuneți că nu vom pune la dispoziție datele, concluzia logică este seturi de date care ar putea ajuta membrii publicului să nu fie, de asemenea, disponibili sau nu vor fi generați în primul rând."
Wiggin de date refugiatul lucrează la un proiect de povestire legat de această problemă, care speră că va cataliza mai multe persoane pentru a solicita comunicări în curs de date și va crea un teren de sprijin pentru continuarea programelor de colectare a datelor existente în întregul guvern federal. Narațiunile „Trei povești în orașul nostru” vor înfățișa impactul ascuns de multe ori pe care datele federale îl au în locuri neașteptate, începând mai întâi în Philadelphia, apoi în alte locuri din țară.
„O piesă crucială a mișcării refugiului de date, pe măsură ce trecem la următoarea fază, îi ajută pe oameni să înțeleagă cât de utilizate pe scară largă a datelor produse federal sunt în viața lor”, a spus Wiggin. „Indiferent dacă îl numiți climă, sănătate sau siguranță publică, sunt în continuare date federale. Este în comunități, la primărie, în eforturile de poliție, în armată. Trebuie să ne amintim cât de importante sunt aceste date."
Resurse:
- Gateway pentru Datele de Mediu EPA: portalul de metadate al Agenției pentru Protecția Mediului.
- Open Data @ DOE: portalul de date deschise al Departamentului Energiei.
- Portalul de date al serviciilor de cercetare economică USDA
- Resurse pentru date mari NOAA: Link-uri către paginile platformei partenerilor Big Data care găzduiesc date generate de NOAA.
- University of North Texas: Cyber Cemetery: Arhivă de site-uri guvernamentale defuncte, depășite sau închise.
- Pagina de proiect de arhivare a inițiativei de date și guvernare: instrumente, cod și aplicații legate de descoperirea și arhivarea datelor guvernamentale.
- Internet Archive Wayback Machine
- Internet Archive: Cum să salvați paginile în mașina Wayback: șase moduri de a nominaliza paginile pentru arhivare.
- Biblioteca digitală din California: Arhiva Web de sfârșit a termenului: o colecție de site-uri web ale guvernului american salvate de la sfârșitul perioadei de rulare, din 2008 până în prezent.
- FreeGovInfo.info: conținut larg, cu informații despre portaluri de date la nivel de stat și federal, și arhive de știri despre probleme de date deschise.
- Oglinda climatică: o colecție de seturi de date climatice adunate de voluntari.
Această poveste a apărut pentru prima dată în PC Magazine Digital Edition. Abonați-vă astăzi pentru mai multe povești de caracteristici originale, știri, recenzii și cât de tos!