Minna Ruckenstein
Big datan suuri lupaus – numerot kertojina
Piilaaksossa visioidaan tietokoneiden ja matkapuhelinten tuottamien valtavien tietomassojen analyysista, joka vie uuteen läpinäkyvään maailmaan. Kriitikot pel-käävät valtioiden ja suuryritysten tiukkenevaa otetta.
Stanfordin yliopiston kampuksel-la kohkataan big datasta. Quantified Self -konferenssiin kerääntyneet sadat tutkijat, hakkerit, yrittäjät ja uteliaat heittelevät viittauksia valtaviin luo-kittelemattomiin tietomassoihin, joi-ta kertyy yhä kiihtyvään joi-tahtiin. Äly-puhelimet tuottavat jatkuvaa aineistoa liikkumisesta ja ihmisten tekemisistä. Harva ymmärtää mitä kaikella aineis-tolla pitäisi tehdä tai mitä siitä pitäi-si saada irti. Silti keskusteluissa vallit-see laaja yhteisymmärrys: Big data on kiinnostavaa.
Big datalla viitataan valtaviin
luo-kittelemattomiin tietomassoihin, jot-ka ovat saattaneet meidät kohti uutta aikakautta. Tavoitteena on maksimoi-da laskennallinen voima ja algoritmi-tarkkuus, jotta yhä laajempia ja moni-muotoisempia tietovarantoja saataisiin analysoitua ja vertailtua. Päämääränä on, että tiedonkeruu ja tietojenkäsit-tely olisi reaaliaikaista ja jatkuvaa. Ar-ki ei pyörisi ilman niitä.
Analysoitava aineisto voi olla mel-kein mitä vain, esimerkiksi potilastie-toa, paikkatiepotilastie-toa, sähkön menekkiä, luottokorttitapahtumia, nettisivujen lokitiedostoja tai sosiaalisen median
sisältöä. Big datan toivotaan auttavan terveydenhuollossa, esimerkiksi syövän ennakoinnissa ja hoitojen kohdenta-misessa. Lisäksi aineistoista toivotaan tukea muun muassa liikennesuunnit-teluun, kriminaalipolitiikkaan, ruoan-tuotantoon ja ilmastonmuutoksen hi-dastamiseen.
Uudenlaista yritämistä ja täsmällisyytä
Keskusteluissa kierrätetään usein samo-ja esimerkkejä, tulvien samo-ja
flunssa-aalto-Kiehtovaa big datassa
on sen lupaus tuottaa
uusia näkökulmia.
Suurten aineistojen
avulla voi numeraalisesti
kertoa mistä tulemme,
mihin pyrimme ja miten
tekemisiimme voi
vaikuttaa.
Kuvat ovat Antti Heikkilän Aalto-yliopistoon tekemästä diplomityöstä Information Vi-sualisation in a Peer Support Application. Aineisto koostuu ihmisen vastauksista ne-tissä julkaistuun stressikyselyyn. Tutkimus on osa Krista Laguksen johtamaa VirtualCo-ach-projektia.
/
jen ennakoinnista (google.org) ruot-salaisen professori Hans Roslingin ti-lastoihin pohjaaviin visualisointeihin (gapminder.org). MITin Media Lab taas keräsi kännyköiden paikkatietoa, erityisesti parkkipaikoilla, ja ennusti sen perusteella tulevaa joulukauppaa.
Tiedonanalyysin ympärille on no-peasti syntynyt uudenlaisia yrityskäy-täntöjä. Lentokentän logistiikka on saatu aiempaa sujuvammaksi, ja ku-luttajaa voidaan puhutella entistä koh-distetummin. Verkon kauppapaikoilla ja palveluissa ihmisten käyttäytymistä tutkitaan lokitiedostojen perusteella. Näin saadaan tietoa ihmisten tiedon-tarpeista tai esimerkiksi siitä, milloin he kirjautuvat sisään verkkopalveluun, kuinka kauan he siellä viihtyvät ja mi-tä he ostavat.
Julkinen sektori on erityisen kiin-nostunut big datan mahdollisuuksis-ta sysätä liikkeelle uudenlaismahdollisuuksis-ta kasvu-taloutta. Yhteisiä tietovarantoja jaka-malla pyritään edistämään kansalais-aktiivisuutta ja yritystoimintaa. Suo-messa Maanmittauslaitos on avannut maastotietoaineistonsa kansalaisten ja yritysten vapaaseen käyttöön. Avatus-sa aineistosAvatus-sa on esimerkiksi karttoja, ilmakuvia ja korkeusmalleja.
Taloudellisen hyvinvoinnin ohella suurten aineistojen ajatellaan tuottavan yhteiskunnallisesti aiempaa osuvampia
valintoja ja poliittista ohjausta. Big da-tan uskotaan lisäävän läpinäkyvyyttä päätöksenteossa. Tietomassoja analy-soimalla on mahdollista nähdä asioi-ta, joita ei muuten nähtäisi. Näin big data tarjoaa totuuksia ja täsmällisyyttä. Microsoftilla tutkimusta tekevä, tek-nologiatutkimuksen vaikuttaja danah boyd (hän kirjoittaa nimensä tarkoi-tuksellisesti pienillä alkukirjaimilla) on listannut kriittisiä näkökulmia big da-taan. Kriitikot näkevät yksityisyyden ja tietoturvan loukkauksia, valtioiden ja suuryritysten yhä tiukempaa otetta kansalaisista ja kuluttajista. Totalitaris-min uhkaakin on jo väläytelty.
Numeroiden laatu
Big datan ehkä kiehtovin piirre on sen lupaus tuottaa uusia näkökulmia. Suur-ten aineistojen avulla voi piirtää esiin ajallisia ja paikallisia yhteyksiä ja riip-puvuuksia. Aineisto voi tehdä ehdo-tuksia ihmisten toiminnasta, heidän välisistään verkostoista ja yhteistyöstä. Näin big datalla on valtaa numeraali-sesti kertoa meille mistä tulemme, mi-hin pyrimme ja miten tekemisiimme voisi vaikuttaa. Terveydenhuollossa ja vakuutusyhtiöissä tätä pidetään valta-vana mahdollisuutena. Aineistot voivat auttaa kroonisten sairauksien
ennalta-ehkäisevässä hoidossa tai erotella on-nettomuuksiin johtavat kehityskulut jo ennen kuin ne tapahtuvat.
Big data -analyysien yleistyessä yhä polttavampi kysymys on, miten ja mi-hin mitattavaa ja luokiteltavaa tietoa käytetään. Kun yritykset etsivät sään-nönmukaisuuksia ihmisten käyttäyty-misestä, ne saavat myös uudenlaisen otteen arjesta. Sosiaalinen media, äly-puhelimien sovellukset ja arkiympäris-töön istutetut sensorit ja mittalaitteet toimivat aineistonkerääjinä ja välittä-jinä, jotka osallistuvat uusien alueiden ja ilmiöiden näkyväksi tekemiseen ja tunnistamiseen.
Toisaalta suuret aineistot ovat yhtä lailla alttiita inhimillisille vääristymille ja painotuksille kuin muukin tiedon-tuotanto. Aineistomassojen tulkinnas-sa virheiden mahdollisuus on toden-näköisempi, koska niissä voidaan näh-dä järjestäviä periaatteita, joita ei tosi-asiassa ole olemassa. Sosiaalisessa me-diassa on kierrätetty tutkimusartikke-lia, joka todistaa tiedonlouhinnan tek-niikoiden esittävän vahvoja korrelaati-oita pörssin S&P indeksin ja bangla-deshilaisen voituotannon välillä.
Suuret aineistot voivat epäilemättä myös latistaa käsitystä ihmisestä ja hä-nen sosiaalisista aikeistaan. Konteks-tit ja kiinnostava variaatio katoaa, kun etsitään yhteisiä nimittäjiä.
Toisaalta suuret
aineistot ovat alttiita
inhimillisille vääristymille.
Sosiaalisessa
mediassa kierrätetään
tutkimusartikkelia, joka
todistaa korrelaatiota
pörssin S&P indeksin
ja bangladeshilaisen
voituotannon välillä.
Numerot eivät ole neutraaleja vaan niillä on oma laatunsa riippuen siitä, mitä niillä halutaan tehdä ja saavuttaa. Jotta big datan laskennallista voimaa ei käytettäisi väärin, se täytyy alistaa myös eettiselle tarkastelulle. Kun tie-totekniikan osaajat siirtyvät ihmistut-kimuksen kentille, heille on tär keää opettaa tiedontuotantoon liittyviä val-ta- ja vastuukysymyksiä.
Käytännöt ratkaisevat
Big dataa ei voi hallita, jos ei ymmärrä määrällisiä aineistoja. Näin se tuottaa uudenlaisia asiantuntija-asemia, kun osa tiedontuottajista osaa järjestää ja lukea numeroita ja toiset eivät. Har-vard Business Review julistaa lokakuun numerossa aineistoanalyysin vuosisa-dan seksikkäimmäksi työksi. Suuriin aineistojen liittyvien kehityskulkujen seuraaminen ja dokumentoiminen on tärkeää, jotta opimme tunnistamaan mitä se todella sysää liikkeelle. Jul-kisten aineistojen avaamista kannat-taa myös seurata erityisen tarkkaan.
Piilaakson big data -keskustelut ovat ajoittain jopa hurmoshenkisiä. Suh-teellisuudentajun puute vie ilmiöl-tä laajempaa uskottavuutta. Suurten aineistojen ajatellaan vievän uuteen maailmaan, jossa aineistot tuottavat
täydellisen läpinäkyvyyden. Suuryri-tykset tekevät hyvää. Ihminen muut-tuu järkeväksi ja vasmuut-tuulliseksi. Hän tekee vain tietoon perustuvia valintoja.
Piilaaksolaisesta näkökulmasta muutoksen voi kuitenkin aistia. Yrit-täjät ja tutkijat ovat valjastaneet kai-ken tarmonsa siihen, että jäljittämis-teknologiat ja niiden avulla tuotetut aineistot muuttavat maailmaa parem-maksi paikaksi elää.
Viime kädessä big dataan pätevät samat säännöt kuin kaikkeen muu-hunkin teknologiseen edistykseen. Toimivat uudet käytännöt syntyvät tekemisestä ja dialogista, eivät suu-rista lupauksista.
Kirjoittaja tekee Kuluttajatutkimuskes-kuksessa tutkimusta itsen mittaamisen teknologioista ja arjen analytiikasta. Hän vieraili syyskuussa Stanfordin yliopistossa ja osallistui Quantified Self -konferenssiin.
Lisää luetavaa:
danah boyd & Kate Crawford (2012) Cri-tical questions for Big data. Provocations for a cultural, technological, and scholarly phenomenon. Information, Communica-tion & Society 15(5), 662-679.