torsdag 24. januar 2013

Big Data og Computerized Social Sciences: samfunns- og etiske utfordringer

Foredrag om Big Data og forskningsetikk til møte i De Nasjonale Forskningsetiske Komiteene



Big Data eksplosjon

  • Mengden av tilgjengelig data har eksplodert i løpet av de siste årene 
  • Data fra kunder og operasjoner fra internettkoblet enheter (mobile telefoner, GPS, bompasseringer, osv.) er kontinuerlig lagret 
  • «Big Data» betegner fenomenet hvor store datasett er fanget, lagret, aggregert og analysert i alle samfunnssektorer 

1 zettabytes (ZB) = 1000exabytes (EB) = 1000000petabytes (PB) = 1000000000terabytes (TB) = 1000000000000gigabytes (GB) = 1000000000000000000000B







Big Data teknologier
  • Relasjonell eller noSQL(structured query language) data base: Big Table (Google), Cassandra (Facebook), HBase (open source)
  • Distributed computing: Google File System eller Hadoop (Open source) + MapReduce
Big Data og samfunnsforskning
  • Big data består ikke bare av store datasett og nye analytiske verktøy men innebærer en computational turn i måten forskningen er drevet på. 
  • Big Data gjør det mulig å analysere med kvantitative metoder flere sosiale objekter (eks: teskt mining) 
  • Big Data i forskning kan føre med seg illusjonen om at forskning er uavhengig av teorier og paradigmer

Big Data: Samfunnrisiko
  • Big Data utgjør en enorm og rik mengde informasjon som kan analyseres ved hjelp av «data-mining» tekniker. 
  • Mulighet til å avdekke individers og gruppers atferdsmønstre
  • Teknikker, som kan anvendes for målrettet reklame og markedsføring

Data mining av sosiale medier kan true ytringsfrihet og personvern:
  • Både regjeringer og private selskaper kan overvåke og analysere kommunikasjon som foregår på sosiale medier 
  • Aggregering av data på tvers av ulike brukerkonto (for eks: Google Gmail, Youtube, Chrome, Google+, osv.) øker mulighet til samle omfattende informasjon om en persons liv.

Big Data etiske utfordringer 
Personvern:
  • Kontroll over personlig informasjon er vanskelig fordi dataene tilgjengelig på weben ikke er kontrollert av en bestemt organisasjon eller er i private regi (Facebook, Google, osv.) og brukeren har gitt fra seg rettighetene sine.Potensiell misbruk av data gjennom aggregering, mining, og salg av data. 
  • Eks: Analyse av metadata assosiert til et bilde i en sosial dating tjeneste som gir tilgang til personens livshistorie

Forskning:

  • Hvilken status har «offentlig tilgengelige data» i sosiale medier, som for eksempel Twitter?
  • Hvilke retningslinjer på hva som definere gode praksiser for forskning med webdata skal anvendes?
  • I hvilken grad burde individene som blir forskningsobjekter (bloggere, twitterbrukere, osv.) samtykke til brukt av deres offentlig tilgjengelige data i forskning? 
  • Hvordan kan anonymitet garanteres?

Data Sift: Eksempel av sosiale medier data kommersialisering





Hvor mye informasjon kan man hente fra Twitter ?
2233 Tweets fra Erna Solberg


Digital divide: 
  • Bare sosiale medier firma (Facebook, Twitter, Google) har tilgang til store sosiale data som de fleste forskere ikke har tilgang til 
  • Forskerne i disse firmaene kan produsere forskning som resten av forskerne ikke kan…og denne typen forskning ikke la seg reproduseres eller evalueres 
  • Store data firma har ingen plikt eller ansvar til å gjøre sine data tilgjengelig for forsknings fellesskap 

Konklusjon
  • Big data fenomen er bare i startfasen 
  • Big data reiser flere nye etiske utfordringer, ikke minst for forskning 
  • Det er behov for en internasjonal tilnærming når det gjelder bruk av Big data i forskning ... Som garanterer personvern og som likestiller forskningsmiljøer