Informasjon som råtner

Jeg tenker på informasjon som mat. En del informasjonselementer er hermetikk og varer nesten evig, noen har en bestemt varighet og er ubrukelige etter en bestemt dato, mens en del er ferskvare som etter en periode blir sur og råtner.

Finnes det noen måte for den som mottar informasjon å si om den er spiselig eller ikke?

Er du den du sier du er?

Som sikkert mange som leser dette vet arbeider jeg mye med informasjonsﬂyt mellom IKT-systemer i utdanningssektoren og spesielt med elektronisk identitetsforvaltning/Feide. Feide, ID-porten og andre internasjonale initiativ rundt fødererte identiteter har til nå hatt mye fokus på spørsmålet “Hvor sikker kan jeg være på at den personen som logger inn er den han utgir seg for å være?” Grovt sett ser vi da pa to ting; hvordan ble identiteten til personen sjekket før han fikk utlevert den elektroniske identiteten og hvilke autentiseringsmekanismer ble benyttet når brukeren logget inn med denne identiteten. Ofte er det dette det snakkes om når man bruker begrepet “Level of Assurance”.

Et par eksempel: Twitter benytter en selvregistrering på web for a opprette konto, samt at de benytter brukemavn og passord som autentiseringsmekanisme. Det svakeste leddet her er utdelingen av konto der en kan påstå at en er hvem som helst. I utgangspunktet er dermed sikkerheten for at den som bruker en twitterkonto er den han utgir seg for å være rimelig lav.

Et annet eksempel kan være den BankIDen jeg har. For å få opprettet kontoen måtte jeg personlig møte opp i banken med legitimasjon som viste at jeg var den jeg påsto jeg var, og når jeg logger inn må jeg bruke fødselsnummer, egendeﬁnert passord med relativt strenge krav og en engangskode fra en kodegenerator knyttet til kontoen min. Sikkerheten for at den som logger inn er den han utgir seg for å være er relativt høy.

Flere aktører har laget rammeverk for a beskrive dette. NlST har sitt “Electronic Authentication Guideline: Recommendations of the National Institute of Standards and Technology“, Liberty Alliance benytter disse i sin “Liberty Identity Assurance Framework” og her i Norge har vi rammeverket med det herlige navnet “Rammeverk for autentisering og uavviselighet i elektronisk kommunikasjon med og i offentlig sektor.”

Er informasjonen om deg riktig?

Det jeg ikke finner noe grundig arbeid på er det neste spørsmålet jeg stiller meg: Når jeg ut i fra tjenestens behov nå er “sikker nok” på at den som logger seg inn i tjenesten min er den han utgir seg for, hvor mye kan jeg stole på at den informasjonen jeg får om han er korrekt? Dette er jo den største merverdien en løsning som Feide har utover en generisk føderert autentiseringsmekanisme. Feide (og sikkert andre sektorløsinger) sender over sektorspesifikk informasjon knyttet til personen som logger seg inn til tjenesten. Og for mange tjenester er det hva du er like viktig som hvem du er. Liberty Alliance skriver at de skal se på “attribute- and entitlement-assertions” i en senere versjon av rammeverket, men det er det eneste jeg har klart å finne. Om det finnes andre arbeid der ute på dette tar jeg gjerne en peker i riktig retning.

Så når jeg ikke finner andres arbeid tenker jeg litt høyt på egenhånd.

Faktorer som påvirker informasjonens pålitelighet

Mange av faktorene vil være de samme som for å fastsette hvem du er,

Rutiner for verifisering og registrering av informasjon når de går inn i systemet
Saksbehandlernes vilje og evne til å følge rutinene
Systemets evne til å fange opp feil ved registrering (som f.eks. ugyldige telefonnummer og e-postadresser)
Systemets evne til å forhindre uautoriserte endringer

Men i tillegg til disse punktene vil du i alle fall ha elementer som

Hvor mange systemer har informasjonen blitt sendt gjennom og har informasjonen, automatisk eller manuelt, blitt endret på veien?
Hvor lenge siden er det informasjonen ble verifisert som riktig?

Hopp fra system til system

Informasjon flyttes i dag fra system til system. For mange betyr det dessverre at en skriver ut informasjonen fra det ene systemet og registrerer det i det neste. Elevinformasjon som navn og fødselsdato skrives inn i det skoleadministrative systemet av en saksbehandler etter lister fra folkeregisteret, it-avdelingen oppretter kontoer i katalogtjenesten etter lister fra det skoleadministrative systemet og superbrukere oppretter kontoer i læringsplattformen etter lister fra katalogtjenesten. Sannsynligheten for at det oppstår feil er rimelig stor.

Om vi for enkelthets skyld sier at det oppstår en eller annen feil for hver tiende elev i hvert ledd blir påliteligheten til informasjonen 66% etter bare fire hopp. (P=0,9^4=0,6561)

Automatiserer vi prosessene reduseres feilraten betraktelig. Uten endringer blir den første fremdeles 0,9, mens vi kan si at av en eller annen grunn oppstår det feil på hver hundrede elev i hvert hopp på grunn av en eller annen manuell operasjon på brukeren. Forhåpentligvis er tallene en av tusen eller noe slikt. Etter fire hopp er påliteligheten nå oppe i 87,3%. (P=0,9*0,99^3 = 0,873…)

Fremdeles må jeg si jeg ikke er fornøyd og heldigvis er det mange som legger inn verifikasjon av informasjonen som legges inn i det skoleadministrative systemet. Med en feilrate på hver tiende elev fra folkeregisteret og det samme fra rettingen i SASet er vi oppe i en pålitelighet på 99% i det skoleadmininstrative systemet og 97% i det fjerde leddet. (P=(1-(1-0,9)*(1-0,9))*0,99^2 = 0,9703)

All informasjon råtner over tid

Så kommer vi til den biten jeg egentlig startet med. Hittill har jeg bare sett på registreringen av informasjon på et gitt tidspunkt og hvordan den flyter fra system til system. All informasjon har en eller annen tidsbegrensning og dess lenger det er siden informasjonen ble registrert eller verifisert dess mindre pålitelig er informasjonen.

Jeg ser i alle fall tre typer “holdbarhetsgrader” umiddelbart; informasjon som er evigvarende/nesten evigvarende, informasjon som har en kjent gyldighetsperiode og informasjon som degraderes over tid.

I den første bolken har vi stabile elementer som fødselsdato, fødselsnummer, karakterer, en del navn og lignende. Disse informasjonselementene er som regel stabile, men forskjellige hendelser kan endre verdien og også hvilken “type person” du er påvirker det. Karakterer kan endres i en periode etter eksamen ved klager, midlertidige fødselsnummer blir erstattet med permanente, navn endres av og til. Men som en forenkling kan vi si at om det er 99% sjanse for at informasjonen registeres riktig er det fremdeles 99-95% sjanse for at den er riktig to år senere.

I den andre bolken har vi informasjon med en kjent varighet. I skolen vil vi ha informasjon som klassetrinn, utdanningsprogram, fag og lignende. Det du da vet med sikkerhet er at etter en gitt periode så er det veldig liten sannsynlighet for at informasjonen er riktig. Er det 99% sannsynlighet for at en person får i VG1 1.okt et år er det kanskje 0-5% sjanse for at han går VG1 1.okt året etter. Gjennom hele skoleåret er det nokså sannsynlig at han er i VG1. En del av disse vil selvsagt ha en “stabiliseringsperiode” der det er mer usikre verdier i begynnelsen av perioden og så mer stabilt etter at verdiene har satt seg.

Den tredje bolken er informasjonen som blir dårligere over tid. Informasjon som du ikke kan sette en definert holdbarhetsdato på, men der påliteligheten synker etterhvert som tiden går. Adresser, telefonnummer, e-postadresser er typiske eksempler. De var sannsynligvis riktige når de ble registrert, men avhengig av hvem du er, livssituasjon og vaner synker påliteligheten til at informasjonen er korrekt over tid. Jeg skulle gjerne hatt kvantitative data, men det virker som at en generell oppfatning er at mobilnummer og private e-postadresser hos elever har en for lav pålitelighet allerede etter noen få måneder. For ansatte i en organisasjon er informasjonen mer stabil og er upålitelig etter et par år eller mer. Om grafen er lineær, avtar eller øker over tid vil sikkert variere fra element til element.

Nå bør en kanskje heller ikke generalisere på alle i en gruppe av personer heller, så hver enkelt persons histore bør tas med i beregningen. Påliteligheten til e-postadressen til en elev som har hatt samme e-postadresse i tre år er nok større enn påliteligheten til en som har byttet fem ganger i samme periode.

Og hva så?

Og hva kan en så bruke dette til? Hos en skoleeier som er ansvarlig for informasjonen om sine elever og ansatte vil en kartlegging av informasjonselementer og når de blir upålitelige kunne brukes til å forbedre rutinene rundt verifisering og oppdatering av informasjon. Du vil kunne gå gjennom og revidere den informasjonen som sannsynligvis er råtten og la den informasjonen som sannsynligvis er grei være i fred. I selvbetjeningsløsninger kan du presentere den informasjonen du tror kan være upålitelig hos en bruker isteden for å presentere brukeren for all informasjon som finnes.

Selvsagt må en ta fullstendige revisjoner av og til, men mindre revisjoner kan gjøres hyppigere og den totale kvaliteten vil forhåpentligvis ble bedre.

For en føderasjon, som f.eks. Feide, vil de ha en mulighet til å sette et mål på hvor sannsynlig det er at informasjon som sendes gjennom føderasjonen er korrekt. En kombinasjon av pålitelighet i en gitt organisasjon, type informasjonselement, samt tid siden informasjonen ble verifisert gir en mulighet til å fortelle mottakere/tjenester at denne organisasjonen har rutiner som gjør at informasjonen er 85% pålitelig når den ble registrert, informasjonselementet degraderes med 5% hver måned, og det er 8 måneder siden den ble verifisert.

Tjenestene som mottar informasjonen kan bedre avgjøre hva de kan gjøre med den informasjonen de får, enten fra skoleeier direkte eller via en føderasjon. Om informasjonen er god nok kan den brukes direkte og mellomlagres til den sannsynligvis er for dårlig. Da kan tjenesten f.eks. be om en oppdatering på akkurat de aktuelle informasjonselementene isteden for å be om hele datagrunnlaget på nytt.

For en del andre tjenester er ikke effektiv lagring og oppdatering så viktig, men øyeblikksbildet er det. En tjeneste som sender ut engangspassord på SMS må f.eks. være mer enn 95% sikker på at mobilnummeret til en elev er riktig ellers så er informasjonen ubrukelig. For en annen tjenete som bare benytter SMS til informasjonsmeldinger er kanskje en pålitelighet på 70% mer enn godt nok.

Det må da finnes andre som har tenkt på noe lignende? Pek meg i riktig retning om du vet av noe.