Banner top Til forsiden Econa

Den digitaliserte virkelighet: Strategier for en verden full av data

figur-author

Sammendrag

I denne artikkelen redegjør jeg for konsekvensene av økt datatilgjengelighet – at bedrifter, særlig de som forholder seg til kunder over Internett, får mer data enn de klarer å gjøre noe med. I en slik verden blir det svært viktig å kunne analysere og reagere på disse dataene. Artikkelen gir eksempler på hvordan datamengden endrer vårt forhold til informasjon – og hvordan smarte bedrifter kan lage seg nye konkurransefortrinn ved kjapt å reagere på endringer hos kundene.

Innledning

Vi er på vei mot en verden der personer, bedrifter og samfunnet har data – masse data. Konkurransefortrinn og kostnadsreduksjoner kan oppnås ved å organisere og analysere disse dataene. Denne virksomheten kaller konsulenter, leverandører og skribenter Big Data – et begrep med nesten like mange definisjoner som brukere. Selv om teknologi for å lagre og analysere disse dataene er lett tilgjengelig, mangler mange bedrifter modeller, analytikere, og kanskje først og fremst vilje til å la seg lede dit dataene fører.

Store informasjonsmengder endrer vårt forhold til informasjon og utfordrer tradisjonelle lagrings- og analysemetoder. Datamengden og endringstakten er en utfordring i seg selv og vil kreve nye analysemetoder: Selv om dataene i seg selv kan være relativt enkle, kan sammenhengen mellom dem være komplisert. Sofistikert dataanalyse har imidlertid et stort potensial, særlig for bedrifter som har et elektronisk grensesnitt til sine kunder og dermed kan bruke kontinuerlig resultatmåling og systematisk eksperimentering til å forstå og tilpasse seg kundenes interaksjonsmønstre.

Data, data overalt

Vi drukner i data. Ifølge en tre år gammel undersøkelse [1] kan verden lagre 285 exabytes data (285 milliarder gigabytes, eller drøyt 80 millioner milliarder tettskrevne A4-sider). Det er tre år siden, og mengden informasjon har vokst med 58 prosent hvert år siden 2007. Mesteparten av dette genererer vi selv, som regel ved av vi benytter ulike elektroniske hjelpemidler til å gjøre dagligdagse ting – ta bussen (og betale med en app), ta bilder med mobiltelefonen (som husker GPS-koordinater og tidspunkt), betale med et bankkort, gå forbi et overvåkningskamera, trekke nøkkelkortet på jobben, kjøre gjennom en bomstasjon. Kjøper du en moderne bil, er den konstant på Internett, vet hvem det er som kjører, analyserer kjøremønster og tilpasser seg din kjørestil. Medisinsk teknologi genererer enorme datamengder: Får du kreft og må ta en PET-skanning, genereres mer enn en terabyte data.

Det er ikke bare store firma som samler data om sine kunder – enkeltpersoner står selv for datainnsamling i et omfang vi bare så vidt har begynt å ane omfanget av. I Russland stoler ikke folk på politiet, så de installerer kameraer på bilens dashbord – kameraer som tar opp hva som skjer foran bilen, i tilfelle man trenger et pålitelig vitne i en trafikkulykke. Resultatet er en masse utrolige videoer av ulykker og nesten-ulykker på YouTube. I 2013 kom Google Glass – databriller som gjør at man kan ta opp alt man ser, og dele det, direkte og trådløst, på Internett.

Dette har store samfunnsmessige implikasjoner. Forestill deg at denne teknologien hadde vært utbredt på Utøya 22. juli 2011: På den ene side ville politiet kanskje fått greie på situasjonen mye raskere enn de gjorde, og dermed reddet flere liv. På den annen side ville en mengde forferdelige videoer – kanskje også en produsert av Anders Behring Breivik – ligge ute på nettet, som propaganda og muligens underholdning.

Informasjonsmengdejusteringer

En verden med enorme mengder data er en verden der vår oppfatning av hva som kan kommuniseres og analyseres, endres – som Karl Marx har sagt, en kvantitativ endring som er stor nok, blir på et eller annet tidspunkt en kvalitativ endring. Få har merket dette bedre enn det amerikanske etterretningsvesenet.

Da WWW kom i 1994, var en av de første brukerne det amerikanske etterretningsvesenet – CIA, FBI, NSA, ATF, og en rekke andre. I kjølvannet av Gulfkrigen hadde man innsett at amerikansk etterretning ikke visste hva de selv visste – hemmelighold gjorde at man ikke delte informasjon mellom ulike organisasjoner, eller engang innenfor dem – og dette var et større problem enn økt risiko for informasjonslekkasje. Man laget et nettverk kalt Intelink som forbandt CIA, andre deler av amerikansk etterretningstjeneste, og konsumenter av denne informasjonen, blant annet Det hvite hus. Jeg har blitt fortalt at en øyeblikkelig effekt var at man sluttet å kjøre en daglig lastebil med dokumenter (kalt the pizza truck) mellom CIAs hovedkvarter i Langley og Det hvite hus.

Da dette nettverket ble satt opp, var typisk netthastighet liten (512 kbit/s) og harddisker typisk på under 100 MB. Søkemotorer var primitive, og det å laste ned et bilde tok mange minutter. Den underforståtte sikkerhetsmekanismen var at hvis noen skulle laste ned noe, ville de bare få tak i deler av helheten – hvis noen skulle laste ned store informasjonsmengder, ville de raskt bli oppdaget.

Tidene har endret seg. Nå er 100 Mbit/s ikke uvanlig som Internett-hastighet hjemme: Den PC-en jeg skriver dette på, har 3 terabyte lagringsplass – 30 000 ganger mer enn en vanlig PC i 1994. Et kjapt websøk viser at man kan få kjøpt en 128-GB minnepinne for rundt 700 kroner.

Konsekvensen er kanskje ikke flere informasjonslekkasjer, men at hver lekkasje blir så mye større. Aktivistorganisasjonen WikiLeaks fikk i 2010 tak i 1,6 GB diplomatisk kommunikasjon ved hjelp av en menig soldat ved navn Bradley (nå Chelsea) Manning. Denne informasjonsmengden er mindre enn en spillefilm og kan altså lastes ned på noen sekunder. Edward Snowden, en dataspesialist som i 2013 avslørte at NSA har storstilte overvåkningsprogrammer for telefon- og datakommunikasjon over hele verden, har antakelig lastet ned mye mer. For etterretningsorganisasjonene betyr dette at hvem som helst – i skrivende stund har flere millioner mennesker adgang til ulike deler av deres interne nett – kan stikke av ikke med noen få dokumenter, men med enorme datamengder. Endringer i kommunikasjonshastighet og lagringsplass har ført til at praksis må endres – det blir vanskeligere å holde ting hemmelig, og det kan dermed bli vanskeligere å dele informasjon fordi konsekvensen av en lekkasje er så mye større.

Et fulldokumentert liv

Også på det personlige plan vil vi endre vårt forhold til informasjon. Min venn Cathal Gurrin er forsker og foreleser ved Dublin City University. Jeg møtte ham første gang utenfor et kontorlokale i Bjørvika. Jeg hadde på meg en blå skjorte og kjørte en gammel rød bil – og husker det fordi Cathal tok et bilde.

Cathal tok faktisk nesten 2 000 bilder den dagen. Det gjør han de fleste dager, for han bærer et kamera i en snor rundt halsen, et kamera som tar bilder i ett kjør – med jevne mellomrom, men også hvis de mange sensorene (temperatur, infrarødt lys, GPS, lys) kameraet har, slår ut. Det har han gjort siden 2006, da han som én av tre forsøkspersoner ble med i MyLifeBits [2], et forskningsprosjekt der deltakerne dokumenterer alt de gjør i digitalt format – og forsøker å finne ut hva man kan bruke denne informasjonen til senere, og hva slags verktøy som må utvikles for å bruke den [3]. Han vet for eksempel hva han har spist til middag de siste sju årene, og hvor mange kaffekopper han har drukket. Han har funnet ut enkelte interessante ting, som at hukommelse er nokså upålitelig: Ved å skrive ned ting som har hendt ham (for eksempel en liten bulk i bilen) og deretter gå tilbake for å se bildene fra den dagen det skjedde, har han oppdaget at hukommelsen spiller deg puss – man husker enkelte ting, og fyller inn hullene i hendelsesforløpet ikke med hva som skjedde, men hva man i etterkant finner mest sannsynlig [4].

Alle som har et digitalt kamera – eller en smarttelefon – har gjerne også en PC full av bilder som man aldri helt klarer å holde orden på. Cathal har over to millioner bilder – og det bla seg gjennom, for ikke å snakke om holde noen som helst orden, er rett og slett ikke mulig. I stedet har han og hans forskerteam laget avanserte dataverktøy som går gjennom bildene og lager automatiske sammendrag – fra bilder til episoder. Hvis han kjører bil til jobben, for eksempel, trenger han ikke 60 bilder av to hender på et ratt. Hvis dette gjentar seg hver dag, kan datamaskinen – ved hjelp av GPS-koordinater og bildegjenkjenning – lagre bilturen som en vanlig hendelse – og bildene skjules (men slettes ikke). På den måten lages et sammendrag av de viktigste hendelsene hver dag, identifisert dels ved gjenkjenning, dels ved kombinatorisk deduksjon. Det skapes metadata – data om data – som gjør disse hendelsene søkbare i ettertid.

De fleste av oss vil møte denne teknologien som programmer som vil hjelpe oss å holde orden på våre egne bilder. iPhoto fra Apple har allerede ansiktsgjenkjenning, så hvis du har tagget et ansikt med et navn, forsøker den å finne den samme personen i andre bilder. Dette virker foreløpig bare sånn noenlunde, men har interessante implikasjoner hvis Facebook og andre sosiale medier tar i bruk den samme teknikken. Neste trinn er multidimensjonal gjenkjenning av hendelser: Hvis du er i et bryllup og tar masse bilder med en smarttelefon, vil det være visse fellestrekk ved dem: sted (GPS), tid, temperatur, lysforhold, mange av deltakerne har mørk dress, for eksempel. Tagger du et par av bildene med «Per og Karis bryllup», vil bildesystemet ditt dedusere at de andre bildene er fra samme hendelse, finne ut hvem Per og Kari er, og sette i gang med å identifisere de andre gjestene.

Patti Maes ved MIT Media Lab (hun er kjent for å ha laget det systemet Amazon bruker for å anbefale bøker og andre produkter for sine kunder) har demonstrert et system [5] som kjenner igjen folk man møter, og går inn i en database og henter ut informasjon om dem som så gjøres tilgjengelig. En kombinasjon av ansiktsgjenkjenning og tilgang til informasjon vil gi systemer som kjenner igjen folk du møter – kanskje etter mange år – og identifiserer dem for deg, komplett med all mulig informasjon. Som foreleser med en mengde tidligere studenter ville jeg satt stor pris på et system som projiserer «Ole Jensen, student 1999, kurs GRA6821 (karakter C+), finansrådgiver, 38 år gammel, gift, to barn, siste møte Dataforeningskonferanse 11.10.2011 i Sandefjord» på min netthinne ved hvert møte. Jeg tror faktisk studentene hadde likt det også.

Modeller og metadata

Generelt kan data deles inn i tre (nokså upresise) kategorier [6]: Strukturerte data (databaser, regneark, tabeller, all informasjon der man vet hva hvert enkelt informasjonselement er), ustrukturerte data (i hovedsak dokumenter, e-poster, websider og annen informasjon som ikke er kategorisert), og rike data (bilder, lydfiler, video, røntgenbilder, medisinske skanninger, seismikk). Store datamengder er ikke noe problem i seg selv så lenge de er strukturert – en database 1 000 ganger større enn det som var vanlig for ti år siden, er ikke noe vanskeligere å forholde seg til. Men de nye, store datamengdene ligger som regel ikke i velordnede databaser. Nesten all behandling av store datamengder handler om å konstruere metadata – å generere en forståelse av hva dataene representerer ut fra dataene i seg selv.

For strukturerte data er dette nokså enkelt – metadata finnes allerede, om enn med varierende kvalitet. Utfordringen ligger i analysen, i å lage modeller som fungerer i en verden der, gitt datamengden, så å si alle sammenhenger blir signifikante. De fleste statistiske metoder i dag, i hvert fall innenfor samfunnsfagene, er basert på spørreundersøkelser (typisk med 200–1 200 respondenter), bruker regresjonsanalyse som analysemetode, er fornøyd med en forklart varians på rundt 20 prosent og anser en faktor som signifikant hvis risikoen for å ta feil er på under fem prosent. I en verden med millioner eller milliarder av observasjoner – ofte ikke utvalg, men hele populasjoner [7] – blir slike grenseverdier vanskelig å forholde seg til, og nye analyseverktøy vil kreves, i hvert fall innenfor den akademiske litteraturen.

For ustrukturerte data ligger utfordringen først og fremst i å fremskaffe metadata som muliggjør en tolkning både av hva som er verdifullt, og hvor man skal finne det. Tidlige versjoner av søkemotorer leste innholdet i dokumenter (primært websider) og tolket deres viktighet ut fra om de inneholdt de søkeordene man hva ute etter, for eksempel i overskrifter eller inserater. Dette gjorde det enkelt å manipulere en side oppover i søkeresultatene ved å legge inn nøkkelord som skjult tekst. Google ble den dominante søkemotoren ved å konstruere en algoritme [8] inspirert av akademiske siteringsindekser, der den siden som hadde flest lenker til seg fra andre websider (flest siteringer, med andre ord), kom øverst. Også denne metoden viste seg manipulerbar – det er lett å opprette tusenvis av sider som peker til den siden man vil manipulere opp. Google og andre søkemotorer har motvirket dette dels ved å kvalitetssikre hvilke sider man henviser til (en lenke fra New York Times, Aftenposten eller Microsoft teller mer enn fra en nyopprettet blogg), dels ved å følge med på hvilke sider brukerne av søkemotoren faktisk velger å klikke på og gå til. (I parentes bemerket – for mange bedrifter er Google den virkelige hjemmesiden, selv om ledelsen ikke vet det. For de fleste bedrifter kommer mer enn 50 prosent av trafikken fra en søkemotor, og bare en liten del av trafikken (av og til under 1 prosent) til bedriftens hovedside.)

For rike data – lyd og bilde, hovedsakelig – ligger vanskeligheten i å finne metadata ut fra materialet i seg selv. For musikk, for eksempel, er dette ganske enkelt, siden musikken har et notasjonssystem – noter – og det finnes teknologi 1 som kan lytte til et musikkstykke og finne det igjen ved å søke i verdens vel digitaliserte «platesamling» av innspilt musikk. For video og ting som ikke tidligere er digitalisert, består mye av jobben i å lete etter indikasjoner på at visse deler er viktigere enn andre – som for eksempel å finne de mest interessante delene av en fotballkamp og bruke dem til å lage et sammendrag av høydepunkter [9] eller en tilpasset videostrøm med akkurat de scenene man ønsker [10]. Som med ustrukturerte data er man ofte avhengig av å kjenne brukernes reaksjoner – et fotballpublikums lydnivå gir for eksempel en ganske god indikasjon på om det som foregår på banen, er spennende eller ikke. Stemme- og ansiktsgjenkjenning kan også brukes, men har foreløpig store feilkilder, med mindre man kan få opp andre indikatorer, for eksempel navneskilt i et debattprogram eller teksting fra nyhetsprogrammer. Men som med de andre datatypene ligger kilden til metadata først og fremst i å finne ut hva brukerne gjør: Etter hvert som TV og film digitaliseres, får man karaktersetting og kommentarfelt – og da kan man bruke det seerne sier, til å finne ut hva videoen egentlig inneholder. Et alternativ er «Spill med hensikt» – Games With A Purpose, eller GWAP: Googles bildesøk har konstruert metadata for all verdens bilder ved å lage et spill [11] der spillerne skriver inn ord om hva et bilde inneholder, og får poeng hvis en annen (anonym) spiller skriver de samme ordene.

Ryddig ute og rotete på innsiden

Ettersom datamengden i verden har økt, bruker folk i større og større grad søkeverktøy i stedet for kategorisering [12, 13]. Man slutter å sortere e-posten når den kommer inn, for eksempel, og stoler i stedet på at man finner tilbake til den riktige meldingen ved å søke senere. I elektroniske bøker og dokumenter ser man ikke på innholdsfortegnelsen, men søker i stedet etter begreper man vil lese om. Konsekvensene er mange – blant annet må de fleste bedrifter finne seg i at dere hjemmeside ikke er den de tror den er, men Google (eller Bing eller Baidu eller en av de andre store søkemotorene.) Langt de fleste av en bedrifts besøkende kommer til bedriftens websider via en søkemotor – og man må dermed lage sine websider både slik at de blir lette å finne (finnbare), og at hver enkelt side kan leses individuelt, uten å måtte sees i sammenheng med for eksempel bedriftens hovedside.

Søkemotorer brukes i dag i hovedsak i tre sammenhenger [6]:

  • Generelle søkemotorer, der brukerne søker i hele Internett. Eksempler er Google, Baidu (Kinas viktigste søkemotor) og Bing.
  • Kunderettede søkemotorer, der eksterne kunder søker på en bedrifts webside. Eksempler er markedsplassen Finn.no, elektronikkbutikken Komplett.no, filmtjenesten Netflix.com og det søkefeltet du finner oppe i høyre hjørne på de fleste aviser.
  • Bedriftsinternt søk, som er bruk av søkemotorer internt i bedrifter – og, for den saks skyld, den søkingen du kan gjøre på din egen harddisk.

Som de fleste sikkert har opplevd: De generelle søkemotorene virker fantastisk – vi har vent oss til at Google øyeblikkelig finner det vi er ute etter. De kunderettede er mer variable – det går lett å navigere seg frem til de bilene man vil se på Finn.no, men er kanskje ikke så lett å finne noe man har lyst til å se på Netflix. Bedriftsinternt søk er som regel nokså elendig – man finner enten ikke noe i det hele tatt, eller massevis av dokumenter som er nokså like. Hvorfor er det slik?

Svaret er mangfoldig og sier noe både om hvordan vi forholder oss til informasjon, og hva slags strategier for informasjonsbearbeiding bedrifter må lage seg.

De generelle søkemotorene fungerer suverent hovedsakelig av tre årsaker: For det første er informasjonen det søkes i, laget for å bli funnet: Skal du finne ut når søppelfyllingen er åpen, så har ditt lokale renholdsverk laget en webside – kun én – med denne informasjonen, og vil gjøre sitt beste for at du finner den, siden det er i deres interesse. (Søkemotoroptimalisering er faktisk en milliardindustri, i dollar.) For det andre er det så mange mennesker på Internett som forholder seg til informasjonen – enten ved å lenke til den på sine egne sider, eller ved å klikke på den på et søkeresultat – at man kan bruke andres bruksmønster som navigasjonshjelpeverktøy. For det tredje er det slik at vi som søker etter informasjonen, gjerne vil ha den mest populære siden – hvis hundretusener andre har brukt denne siden til å lære noe, vil den nok passe for oss også.

De kunderettede søkemotorene mangler de voldsomme mengdene brukere – med noen unntak, som Amazon og eBay – men de har til gjengjeld en definerbar målfunksjon: De vet hva de vil at kundene skal gjøre på sine sider (kjøpe et produkt, finne et telefonnummer, lese en artikkel, se en film), og kan nøye overvåke hva folk søker etter og klikker på. Alle søkemotorer inneholder masse funksjonalitet for å optimalisere kundenes opplevelse, og de fleste organisasjoner med et elektronisk kundegrensesnitt skjønner fort at det er lønnsomt å sørge for at kundene finner frem så greit som mulig, til den informasjonen man ønsker at de skal finne frem til.

Av og til må man til og med dempe presisjonen en smule: Hvis du søker etter en bruktbil på de mest kjente markedsplassene i Norge, for eksempel, vil du finne at annonsene listes opp ut fra den som er nyest, billigst, eller «mest relevant» (av og til kode for «den som har betalt for å komme først i resultatet»). Det hadde vært en nokså smal sak for en slik markedsplass å prioritere resultatet ut fra det beste kjøpet – den bilen i din geografiske nærhet som har billigst pris i forhold til kjørelengde og utstyrsnivå – men det ville ført til et prispress på bruktbiler og kanskje til at en del store bruktbilforhandlere ville trukket seg ut og heller laget sine egne sider.

Internt bedriftssøk – når bedriften forsøker å finne ut hva bedriften vet – fungerer som regel dårlig av samme årsak som de generelle søkemotorene fungerer bra: Informasjonen er ikke laget for å være lett å finne, man har ikke mange nok brukere til at man får i gang automatiske optimaliseringsrutiner, og sist, men ikke minst: Brukerne er som regel ikke på jakt etter det mest populære dokumentet. Faktisk er folks motiver for å søke etter informasjon i interne bedriftsarkiver mye mer komplisert enn på nettet: Man kan søke etter bestemte dokumenter, «hvor er notatet Martin sendte meg i forrige uke», for eksempel, eller man kan søke for ikke å finne et dokument («finn ut om noen har sendt en epost for å lekke informasjon til avisen, slik at vi kan vise i retten at lekkasjen ikke kom herfra»). Hvis man finner noe, finner man ofte altfor mye: Ting som ikke burde være søkbart (oppsigelsesbrev, for eksempel) eller 46 versjoner (med svært små, men viktige, forskjeller) av et «offisielt» dokument.

Denne pussige situasjonen – ryddig ute, rotete inne – vil skape mye hodebry fremover, etter hvert som arbeid blir mer og mer digitalt og ansattes forventninger til søkbarhet (at man kan søke i noe) og finnbarhet (at noe kan finnes) kalibreres av Google. Det er ikke noe nytt problem - bedriftsledere har alltid ønsket seg bedre oversikt og raskere informasjonsgang. Løsningen ligger antakelig i å prioritere informasjon ut fra hvordan brukerne interagerer med den. Microsofts Oslo Office Graph [14], utviklet i Norge, er et tidlig eksempel på nettopp det. Til syvende og sist må man bruke interne ressurser på å rydde opp og tilrettelegge informasjon slik at andre kan finne den – men hvordan?

Intern informasjonsopprydding – ovenfra eller nedenfra?

Å rydde opp i intern informasjon er et lederansvar, men det er få ledere som ser det. De organisasjoner som forsøker å organisere sin interne informasjonsmengde, er ofte organisasjoner som selv driver forskning og utvikling i større skala, eller organisasjoner som har som eksplisitt oppgave å holde orden på komplisert informasjon, som helseforetak og offentlige institusjoner. Strategien for å gjøre noe med de store informasjonsmengdene varierer, men er ofte en kombinasjon av tre fremgangsmåter:

  1. Top-down-kategorisering, hvor man forsøker å utvikle et standardisert begrepsapparat, ofte ved hjelp av ulike teknologiske plattformer eller metoder, som Topic Maps [15]. Denne fremgangsmåten krever disiplin, kontrollerte ordlister (offisielle nøkkelord) og fremfor alt et organisatorisk fokus på søkbarhet. Et stort problem er at man fort kan ende opp i stivbenthet og byråkrati, med svært mye energi brukt på å diskutere taksonomiske spissfindigheter.
  2. Bottom-up-tagging (av og til kalt folksonomies [16]) der man ber brukere knytte nøkkelord (tags) til dokumenter, for eksempel ved å få folk til å fylle ut metadata om egne dokumenter.2 Dette krever først og fremst mange aktive brukere og er blitt forsøkt i store globale organisasjoner med vekslende hell. Et problem er at selv i organisasjoner med svært høyt kunnskapsnivå innenfor nokså spesialiserte områder (som romfart, farmakologi eller mineralutvinning) er det betydelig mangel på presisjon i begrepsbruk.
  3. Bruk av søke- og samarbeidsteknologi på eksisterende, ofte svært ustrukturerte, dokumentsamlinger. Dette skjer som regel ved at man kjøper en søkemotor og slipper den løs på den eksisterende dokumentsamlingen, standard filservere og så videre. Resultatet er ofte svært dårlig – mange kopier av det samme dokumentet, private dokumenter synlige for alle, og så videre – men kan forbedres betraktelig ved å gjøre folk oppmerksomme på funksjonen, legge inn tydelig merking av personlig informasjon, og bruke standard søkeoptimalisering som å sjekke at det finnes gode svar på de mest vanlige søkebegrepene [6].

Det underliggende problemet med alle disse metodene er at språk er et svært lite presist instrument for kategorisering – og mennesker er som regel lite disiplinerte, i hvert fall i omgang med datamaskiner. Likevel kan mye oppnås – hvis man ikke er altfor opptatt av presisjon – ved ganske enkelt å bruke litt ressurser på lavthengende frukt, for eksempel ved å ansette en bibliotekar til å rydde opp i de mest brukte dokumentene, strukturere språkbruken og sørge for at websidene er noenlunde enhetlige. Har man mange nok kunder og en noenlunde definert målfunksjon, kan man begynne å eksperimentere med å presentere forskjellige løsninger til forskjellige kunder – såkalt A/B-testing – der man systematisk varierer hva som presenteres for kunder, og måler om dette endrer adferdsmønster.

Privatliv og piratliv

Felles for alle søkemotorer (og de fleste digitale grensesnitt) er at presisjonen kan økes betraktelig hvis de vet hvem det er som søker. En femtedel av klodens befolkning er nå på Facebook og deler personalia med hverandre og med Facebooks bedriftskunder. Hver gang du besøker en webside, legger du igjen nok informasjon til at du kan identifiseres neste gang du kommer innom – ikke fordi du fyller ut navn og adresse, men fordi websider kan identifisere hvilke andre websider du tidligere har besøkt, [17] og derigjennom danne seg et bilde av hvem du er. Dette er gefundenes fressen for markedsførere, som for eksempel kan identifisere holdningsskapere gjennom transaksjonsmønstre. Telenor har funnet ut at store deler av Norges tidlige brukere av smarttelefoner kjenner hverandre [18] og i hvert fall ut fra adopsjonsmønstre ser ut til å ha betydelig påvirkningskraft.

For mange bedrifter åpner store datamengder et minefelt innenfor persondata og hvordan de skal brukes. Det er i dag strenge regler for oppbevaring og bruk av persondata, men reglene er lite kjent og relativt lette å omgå. De kan også synes vanskelige å rettferdiggjøre gitt offentlige debatter om datalagringsdirektiv og nyheter om at utenlandsk etterretning (svensk og amerikansk) kan overvåke alt vi gjør via telefon og nett. Som vanlig kommer teknologien først, deretter bruken, så normer og lover. Den vanlige bruker ser ut til å være svært villig til å bytte sine private data mot funksjonalitet, sannsynligvis mest fordi man ikke er klar over hva som skjer. I Norge har vi forbrukere stort sett vært forskånet for den mest aggressive, personaliserte markedsføringen, men en gryende bevissthet kan spores både hos bedrifter og den menige forbruker. Om dette vil gi seg utslag i endrede regler eller utstrakt bruk av for eksempel kryptering, gjenstår å se, men vil nok kreve et generasjonsskifte blant politikere og byråkrater.

Innovasjonsmaskinen

Tilgangen på data gjør at man kan analysere mer, kan forstå hva kundene vil ha, og kan forholde seg til dem som enkeltmennesker, og ikke som medlemmer av et segment. Vel og bra – men er det lønnsomt? Det avhenger av om bedriften er i stand til kontinuerlig å tilpasse sine tilbud til hva analysen viser.

De fleste bedrifter forholder seg til sine elektroniske grensesnitt som kopier av det de gjør i den analoge verden, og er rett og slett ikke i stand til å tilpasse sine produkter og tjenester til den enkelte kunde. Et vanlig eksempel er inndelingen av kunder i bedriftskunder og privatkunder blant banker, telefonselskaper og nettbutikker: Privatkundene får enkle og billige produkter, bedriftskundene dyrere og mer kompliserte tilbud med grensesnitt for profesjonelle innkjøpere og regnskapsførere. Men hva med den lille enmannsbedriften som kun trenger en enkel løsning, eller den store familien som kunne ha behov for samlet oversikt og rapportering? Hvis denne kundesegmenteringen reflekteres i bedriftens organisasjonsstruktur, er løpet kjørt – småbedriftene er ikke lønnsomme for storkundeorganisasjonen, storfamilien for komplisert for privatmarkedssystemene. I de fleste tilfeller vil det lønne seg for bedriften å skalere opp forbrukersiden (en bevegelse mot større lønnsomhet) heller enn å forenkle storkundeorganisasjonen (mot en de facto disrupsjon). Uansett ligger det store penger i markeder som faller mellom to stoler.

Et annet problem for mange bedrifter ligger i endringstakt – dataene er ikke bare mange, men de endrer seg også så fort at tradisjonelle beslutningsrutiner ikke klarer å henge med. Dette er mest tydelig i finansmarkedet, der over 60 prosent av alle aksjehandler på amerikanske børser nå foretas automatisk av datamaskiner (såkalt high frequency trading, HFT), og selskapene kjemper om å ligge noen mikrosekunder foran andre og dermed kunne kjøpe og selge tilnærmet risikofritt. I andre markeder vil man først og fremst merke at nye produkter og tjenester øyeblikkelig blir kopiert – og at konkurransefortrinn på lengre sikt ligger mer i nettverkseffekter (når kjøpere og selgere møtes på en markedsplass, ligger verdien i tilgangen til de andre kundene, og ikke i nettsidens funksjonalitet) eller i at man gjør kunden avhengig av sine tjenester gjennom kontinuerlig forbedring. Mobil teknologi vil bli viktig her – stadig flere bedrifter lager apper, men skal man lykkes, må man lage appen slik at den blir et daglig hjelpemiddel for kunden, ikke et mindreverdig alternativ til websider og butikker.

Den voldsomme utviklingen i datateknologi har i stor grad gått ut på å gjøre maskinene lettere å bruke, utvikle kundegrunnlaget, og gjøre det man allerede kan, men bare raskere. På det personlige plan har det ført til at en stor del av livet vårt, og vår interaksjon med medmennesker, foregår elektronisk. Vi trenger ikke kunne så mye lenger – det meste kan vi finne, og fort. Spørsmålet er om vi er i stand til å gjøre det samme som organisasjoner – om vi kan omstille oss til en verden der vi må kjenne igjen kunden og elektronisk presentere vår beste side for ham eller henne slik vi gjør det på Facebook.

Konklusjon

Tilgang til store datamengder vil for bedrifter og bedriftsledere bety at man i større grad kan analysere seg frem til hva man skal gjøre, at magefølelse og teft vil bety mindre i en verden der man kan eksperimentere seg frem til hva som fungerer, nærmest automatisk. Skal dette fungere, må man se bedriften som en innovasjonsmaskin, som et dataprogram som hele tiden kan optimaliseres og forbedres, der endring og innovasjon er bygget inn i systemer og organisasjonsdesign. Dette betyr at å forstå hva slags informasjon man har tilgang til, og hva man kan gjøre med den, blir et topplederansvar, ikke noe som kan delegeres til teknologer og spesialister.

En redaktør i en avis i dag må vite noe om klikkstatistikker og hva som driver dem, uansett hvordan det bryter med en tidligere kultur basert på innhold heller enn transaksjonsmønstre. Det samme vil skje med ledere i andre bedrifter, ettersom kundegrensesnittet blir elektronisk og kundenes oppførsel analytisk tilgjengelig. En bedrift som ignorerer sine data, kan havne i samme situasjon som en amatørinvestor i aksjemarkedet – at lynkjappe dataanalytikere har raket til seg den profitten man under problemer kunne hatt i en langsommere og enklere verden.

Skal man vinne som bedrift i en datarik verden, må man finne den riktige balansen mellom originalitet og kundetilpasning, forstå informasjonsstyring, tåle kreativt rot i systemet og skape et analytisk system i rotet.

Artikkelen bygger på arbeid innenfor iAD (Infor­mation Access Disruptions) Senter for forskningsdrevet innovasjon, prosjekt nr. 174867, støttet av Norges Forskningsråd.

Bibliografi

  • 1: Shazam og SoundCloud er to eksempler, begge nedlastbare til mobiltelefon.
  • 2: Problemet kan illustreres med et enkelt eksperiment: Start opp tekstbehandler, regneark eller presentasjonsverktøy på din egen PC og hent inn et dokument du har fått tilsendt fra noen i din egen organisasjon. Velg File>Properties (Dokument>Egenskaper eller lignende), så kommer det opp et lite skjema med navn på forfatter, organisasjon, nøkkelord og andre metadata. Som regel er disse feltene tomme – eller (spesielt for presentasjoner) de har som forfatter den grafikeren som designet selskapets standardpresentasjon for mange år siden.
  • 1. Hilbert, M. og P. López (2011). The World’s Capacity to Store, Communicate and Compute Information. Science, 332(6025): 60–65.
  • 2. Gemmell, J., G. Bell og R. Lueder (2006). MyLifeBits: A personal database for everything. Communications of the ACM, 49(1): 88–95.
  • 3. Cox, S. (2011). Memories are made of disks. Sunday Times Magazine, 11. september 2011.
  • 4. Doherty, A.R., C. Gurrin og A.F. Smeaton (2009). An investigation into event decay from large personal media archives. I: Proceedings of the 1st ACM international workshop on Events in multimedia; s. 49–56. ACM: Beijing, Kina.
  • 5. Mistry, P. og P. Maes (2009). Sixth Sense: A wearable gestural interface. I: ACM SIGGRAPH 2009 Sketches; s. 11.
  • 6. Andersen, E. (2012). Making Enterprise Search Work: From Simple Search Box to Big Data Navigation. MIT CISR: Cambridge, MA.
  • 7. Harford, T. (2014). Big Data: Are we making a big mistake? Financial Times Magazine, 28. mars 2014.
  • 8. Brin, S. og L. Page (1998). The Anatomy of a Large-Scale Hypertextual Web Search Engine. Fra: Seventh International WWW Conference. Brisbane, Australia.
  • 9. Ferguson, P. mfl. (2009). Enhancing the Functionality of Interactive TV with Content-Based Multimedia Analysis. Fra: ISM ’09. 11th IEEE International Symposium on Multimedia.
  • 10. Johansen, D. mfl. (2012). Search-based composition, streaming and playback of video archive content. Multimedia Tools and Applications, 61(2): 419–445.
  • 11. von Ahn, L. og L. Dabbish (2004). Labeling images with a computer game. Proceedings of the SIGCHI conference on Human factors in computing systems CHI ’04. 2004. Vienna, Austria. ACM Press.
  • 12. Andersen, E. (2006). The Waning Importance of Categorization. ACM Ubiquity, 7(19).
  • 13. Weinberger, D. (2007). Everything is Miscellaneous: The Power of the New Digital Disorder. New York: Henry Holt and Company.
  • 14. Spataro, Jared (2014) «Work like a network! Enterprise social and the future of work», Microsoft Office Blogs, http://blogs.office.com/2014/03/03/work-like-a-network-enterprise-social-and-the-future-of-work/, aksessert 21. mai 2014.
  • 15. Garshol, L.M. (2004). Metadata? Thesauri? Taxonomies? Topic Maps! Making Sense of it all. Journal of Information Science, 30(4): 378–391.
  • 16. Hotho, A. mfl. (2014). Information Retrieval in Folksonomies: Search and Ranking. I: Y. Sure og J. Domingue (red.), The Semantic Web: Research and Applications; s. 411–426. Springer Berlin Heidelberg.
  • 17. Hayes, B. (2014). Uniquely Me! American Scientist, 102(2): 106–109.
  • 18. Sundsøy, P.R. mfl. (2010). Product Adoption Networks and Their Growth in a Large Mobile Phone Network. Fra: ASONAM International Conference on Advances in Social Networks Analysis and Mining, Odense, Danmark.

© Econas Informasjonsservice AS, Rosenkrantz' gate 22 Postboks 1869 Vika N-0124 OSLO
E-post: post@econa.no.  Telefon: 22 82 80 00.  Org. nr 937 747 187. ISSN 1500-0788.

RSS