10 spørsmål til landets første dataforsker

10 spørsmål til landets første dataforsker

Det er bare åtte år siden DJ Patil – da data- og analyselederen på LinkedIn – var med på å lage begrepet 'dataforsker', men yrket har allerede blitt en av de mest populære i landet .

Patil har lenge vært involvert i dataindustrien. Som doktorgradsstudent og påfølgende fakultetsmedlem ved University of Maryland brukte han åpne datasett fra NOAA for å forbedre numerisk værvarsling. I nesten to år var han direktør for strategi, analyse og produkter hos eBay, Inc.; han tilbrakte nesten tre år på LinkedIn; og han har skrevet bøker om datakultur og byggedataprodukter. I fjor erklærte Det hvite hus sin egen støtte til datavitenskap ved utnevne Patil som sin første amerikanske Chief Data Scientist og som dens assisterende Chief Technology Officer for datapolitikk i Office of Science and Technology Policy.



Hvorfor bestemte regjeringen at de trengte en dataforsker, og hva innebærer stillingen? Science Friday chattet med Patil om hva som fikk ham til å interessere seg for data, hva det betyr å være en 'dataforsker' og hvor han ser industrien på vei.

DJ Patil. © 2012 Eric Millette, Alle rettigheter reservert

Hvordan begynte du først å jobbe med data?
Jeg suger på matte, generelt sett. Jeg besto knapt mattetimene mine på videregående, og jeg var veldig heldig at jeg gikk på en ungdomsskole rett nede i gaten [i California] som heter De Anza College. Den beste avgjørelsen jeg noen gang har tatt var å ta samme time som kjæresten min [ler], og hun tok kalkulus, så jeg gikk og tok denne kalkulustimen. Og jeg sa: 'Hellig dritt, jeg vet ingenting; dette er enormt pinlig.’ Jeg hadde virkelig dette øyeblikket da jeg bestemte meg for å faktisk lære det, og også for å imponere kjæresten min. Jeg tok det opp veldig raskt, og jeg ble forelsket i matematikk.

Derfra gikk jeg over til UCSD, hvor jeg virkelig begynte å jobbe med mange dataaspekter rundt kaosteori. Derfra dro jeg til University of Maryland, hjemmet til kaosteorien, og en av mine rådgivere var Jim [James] Yorke, som laget begrepet ' kaos teori .'

Vi begynte å jobbe med værmelding . Vi snublet virkelig over at været ikke var så kaotisk som folk tidligere hadde trodd. Måten vi gjorde det på var at jeg gikk inn hver kveld rundt klokken 20.00, tok over hver datamaskin i matematikkavdelingen i hemmelighet, og så lastet ned alle disse dataene fra National Weather Service, rippede dem fra hverandre, sette dem sammen i forskjellige måter – og så avreise før kl. 08.00, når noen ville komme inn. Og det tillot oss å finne disse virkelig interessante mønstrene. Det var et «a-ha!»-øyeblikk for meg: Å wow, du kan gjøre utrolige ting hvis du kan hente data. Etter at vi gjorde det, ble det en av de viktigste teknikkene som ble brukt i værvarsling.

Du var da med på å lage begrepet ' dataforsker ’ (med Jeff Hammerbacher, den gang dataansvarlig på Facebook), ikke sant?
Ja. Det er godt og dårlig. Jeg tror det er dette interessante spørsmålet: Vel, hva er en dataforsker? Er ikke det bare en vitenskapsmann? Bruker ikke forskere bare data? Så hva betyr egentlig det begrepet?

Du har hatt en av mine medforfattere, Hilary Mason, på programmet, og det vi tuller med og vi skrev om sammen, er at det viktigste med dataforskeres stillingsbeskrivelse er at den er amorf. Det er ingen spesifikk ting du gjør; arbeidet legemliggjør liksom alle disse forskjellige tingene. Du gjør alt du trenger for å løse et problem.

Hvis du bygger en selvkjørende bil, hvem er de som bygger den selvkjørende bilen? De er dataforskere – enten de er produktledere, designere, hva enn de er. Det er menneskene som bruker disse teknikkene og ideene fra økonomi, fra statistikk, fra maskinlæring, fra kunstig intelligens, fra alle disse disiplinene for å spesifikt få det til å fungere, for å få bilen til å kjøre på en måte som holder deg trygg og andre trygge også.

De beste dataforskerne har én ting til felles: utrolig nysgjerrighet.

Hvordan har dataindustrien endret seg, og hvorfor tror du det har blitt populært å være dataforsker?
Jeg tror grunnen til at datavitenskapsaspektet virkelig har blomstret nå, er at folk er i stand til å samle inn data langt enklere enn før; det er ikke mye anstrengelse å gjøre det. Det andre er, nå som folk kan samle inn tilstrekkelig mengde data, er det spørsmålet om, ok, så hva skal vi gjøre med det? Og WHO skal egentlig gjøre dette?

Hvordan tror du Det hvite hus innså at det trengte en dataforsker?
Vel, en av tingene som folk ikke alltid har tatt i betraktning, er hvor mye fokus denne presidenten har lagt på data fra dag én. Selv om du går tilbake i kampanjen hans, er han veldig fokusert på å bruke data på nye måter for å engasjere seg med publikum. Da han kom inn i administrasjonen, har han vært fokusert på alt fra hvordan pasienter får mer tilgang til data, til hvordan vi sikrer at vi bruker data for åpenhet – [dvs.] øker mengden data som er åpen der ute. Vi har skapt data.gov , hvor det er nesten 200 000 datasett som er tilgjengelig for alle å se på. Hvordan bruker vi data for å forbedre tjenestene for alle? Faktisk har [president Obama] en kjennelse at alle statlige data som standard er åpne og maskinlesbare, og at data som publiseres ved hjelp av føderale forskningsdollar bør være gratis, for hvem har betalt for det? Skattebetalerne. (Det er et tidsvindu der vi ønsker at [helse]-tidsskriftene skal kunne ha eksklusiv tilgang, men på lang sikt skal publikum ikke måtte betale for det.)

Akkurat som han var den første presidenten som hadde en teknologisjef, har han erkjent at det må være et team som er fokusert på hvordan vi slipper løs kraften til data for virkelig å være til nytte for hver enkelt amerikaner.

Du har nå hatt denne stillingen i over ett år. Hva er din stolteste prestasjon så langt?
Prestasjonen jeg er mest stolt av så langt er at dataforskere nå er tungt, tungt engasjert i å jobbe med disse problemene, og så mange av de føderale byråene har nå et datateam eller en dataforsker eller en dataansvarlig. Ta transport, for eksempel. De har en dataansvarlig som fokuserer på: Hvordan tenker Transportdepartementet på en ny måte om dette? National Institutes of Health har en person som er fokusert på nye måter å tenke data på. Det samme gjør det amerikanske landbruksdepartementet. Til og med USAID. Så alle tenker på data som en kraftmultiplikator.

'De beste dataforskerne har én ting til felles: utrolig nysgjerrighet.'

Hvor ser du fremtiden til dataindustrien på vei?
Det mest spennende for meg med fremtiden er hvordan data kommer til å være en del av hver eneste samtale, og at vi vil ta raskere beslutninger av høyere kvalitet som et resultat av det. Det som vil skje er at vi ikke bare ser på data en gang hvert 10. år for å evaluere noe – vi vil se på data veldig regelmessig og kurskorrigerende i mye mer sanntid. Og det vil tillate oss å få myndighetene til å yte bedre tjenester og være mer smidige.

Hvilke råd har du til en som ønsker å bli dataforsker?
Det er aldri en bedre tid å starte. Bare gå til data.gov . Det er nesten 200 000 datasett der hvis du bare begynner å laste dem ned, lek med dem. En av de kuleste tingene du kan gjøre nå, er å jobbe med data på ditt lokale bynivå. Det er en Nasjonaldagen for samfunnshacking [den 4. juni 2016], og det som kommer til å skje den dagen rundt om i hele landet er at folk skal ha et hackathon i sin lokale by, de skal jobbe med data på lokalt nivå. De får bruke disse dataene til å forbedre lokalsamfunnene sine.

Hva tror du er noen av de største utfordringene dataindustrien står overfor?
Noe som jeg synes er veldig viktig, som jeg etterlyste, er at hvert enkelt opplæringsprogram – enten det er bachelor-, graduate- eller nettkurs i datavitenskap – må ha dataetikk som ikke et valgfag, men som et sentralt prinsipp for hvordan vi gjør det. tingene. Når vi jobber med data har du utrolige muligheter til å gjøre store ting med det, og du har også evnen til å gjøre noe som kan være svært problematisk. Vi ser hvor folk har brukt data på måter som vi mener er grunnleggende ikke ok. Folk har begynt å snakke om dette og hva vi bør gjøre med det. Jeg tror vi må ha en mye sterkere samtale. Personvernkomponenter er like viktige.

Jeg tror også vi må lære opp mange flere til å bruke data. 'Bruk data' betyr hvordan du leser en graf på det helt grunnleggende nivået, hele veien til å gjøre veldig sofistikerte ting. Ved å styrke folk med data i hverdagen får folk bedre kontroll over skjebnen sin. Det kan være noe så enkelt som: Hvordan velger du høyskole? Det er derfor vi jobber så hardt med utdanningsdepartementet for å bygge Målkort for college , som gir folk åpenhet på en ny måte.

Får du noen gang tilbakeslag i rollen din?
Det største tilbakeslaget jeg tror det er, er hvordan vi håndterer personvernaspektet ved dette, og hvordan tenker vi samtidig om cybersikkerhet? Grunnen til at jeg ikke tror tilbakeslag er det rette ordet er fordi alle anerkjenner verdien her, så det er ikke et «men» – det er et «og». Hvordan bruker du data og bevarer personvernet og sikre cybersikkerhet? Jeg har ikke fått noen som er sinte på problemene vi jobber med; Jeg tror det vi har som et problem er, hvorfor jobber du ikke med at ? Kanskje det er det største tilbakeslaget.

Så hvordan håndterer du disse bekymringene om personvern og cybersikkerhet?
Jeg er veldig fokusert på dem. Faktisk er de integrert i alt vi har gjort. For eksempel i Presisjonsmedisinsk initiativ , slapp vi personvern og tillitsprinsipper som, vi tror, ​​kommer til å bli appen fremover for alle som driver med denne typen biomedisinsk forskning. Og så lanserte vi utkastet til sikkerhetsrammeverket for enhver av denne typen forskning fremover, og vi vil sluttføre det snart. Så vi praktiserer det vi forkynner, ved at dataetikk er en utrolig komponent i hver eneste ting vi gjør.

Denne artikkelen er redigert for plass og klarhet.