«Relativ anonymisering» virker – og er lov

Det er ting som irriterer meg med hvordan personopplysningsloven blir forstått og brukt. Jeg mener det er viktig at vi har en god lov, og at vi skal ta den på alvor. Samtidig er det for mange personvernansvarlige (les personvernjurister) som ser spøkelser på høylys dag, og leser lovens bokstav uten å koble det til virkeligheten. Dette har blitt veldig synlig i arbeidet med KI og utdanning. Absolutter er noe vi skal være forsiktige med i en kontekstuell og relativ verden. Det gjelder også for hva som er en personopplysning. Personvernansvarlige – kan dere ta dere en bolle (og en kopp kaffe), og tenke på det jeg skriver her?

Under finner du tre setninger. Er dette personopplysninger eller ikke? Du kan bare svare «Ja» eller «Nei» på hver av dem. Du får ikke lov til å gjøre som personvernjurister lett gjør og svare «Det kommer an på». Den eneste konteksten du har er at setningen du svarer på står her på skjermen foran deg.

«Jan Johansen har en blå Volvo»

Se resultat

Loading ... Loading …

«Kai Bugge har en blå Volvo»

Se resultat

Loading ... Loading …

«Odin Nøsen har en blå Volvo»

Se resultat

Loading ... Loading …

En personvernansvarlig vil raskt si at alle er personopplysninger, fordi disse i en eller annen situasjon/kontekst kan være en personopplysning – og da er de per definisjon en personopplysning. Hvis en eller annen i verden en eller annen gang i en eller annen situasjon kan lese dette som en personopplysning, så er det en. Skal det ikke være en personopplysning, så må du anonymisere på en slik måte at selv den det handler om ikke kan vite at det er det. Kravet om absolutt anonymitet er absolutt. Ferdig snakket. Jeg har alltid tenkt at dette fungerer ikke. Det betyr i praksis at alt som finnes der ute på nettet kan være en personopplysning om deg. Den rette konteksten har bare ikke dukket opp enda. Mange har tolket personopplysningsloven slik lenge, men det er ikke riktig – og det har vært feil en god stund.

Så her er min begrunnede nylesning av disse setningene. Vi begynner med den første setningen.

Her er spørsmålet om du har nok informasjon til å vite hvilken Jan Johansen setningen handler om, hvis vi tar for gitt at det finnes en fysisk person som heter Jan Johansen. Poenget med personopplysningsloven er at det først er en personopplysning når du kan knytte en opplysning til en identifiserbar fysisk person.

Det riktige svaret er faktisk «Nei» – ut fra din kontekst. Du kan ikke vite hvilken identifiserbar fysisk person ved navnet Jan Johansen jeg har skrevet noe om, fordi det er så mange som heter det. Den riktige personen er ikke identifiserbar, og dette er derfor ikke en personopplysning.

Dessuten er det enda en detalj du må tenke på. Hvordan kan du være sikker på at Jan Johansen er en fysisk person? Jeg kan jo ha funnet på et navn og en opplysning, og skrevet det ned. Du må faktisk sjekke om dette navnet er navnet på en fysisk person før du kan mene noe om at dette er en personopplysning eller ikke. Det ser ut som en personopplysning, men er det tilfelle?

Det er nå Kai Bugge kommer inn. Er Kai Bugge en fysisk person? Hvis du googler ham oppdager du raskt at Kai Bugge er en fiktiv person, og personvernloven gjelder ikke for annet enn levende fysiske personer. Så svaret her er også «Nei», men det vet du ikke før du sjekker hvem Kai Bugge er (eller har lest André Bjerke sine bøker). Da må du ha tilgang til en annen kilde (les – mer kontekst) enn bare setningen.

Den eneste som med sikkerhet kan vite om dette er en personopplysning (eller ikke) er den som har skrevet setningen. Så for den som skriver setningen vil det være en personopplysning eller ikke, alt etter om personen vet at det er det – eller ikke. Jeg skal innrømme at jeg fant på setningen om Jan Johansen før jeg tok meg bryet med å sjekke om den har noe med virkeligheten å gjøre, så det er egentlig fiksjon fra min side. Jeg visste ikke om det er en person ved navnet Jan Johansen som har en blå Volvo – eller ikke. Men jeg gjorde en kvalifisert vurdering ved å regne med at siden Jan Johansen visstnok er det vanligste navnet i Norge, så burde kanskje én av dem ha en blå Volvo – og gjøre dette til et interessant utgangspunkt. Egentlig er Jan Johansen fiksjon, på lik linje med Kai Bugge, og eventuelle likheter med virkelige personer er bare en tilfeldighet (som de av og til skriver i begynnelsen av filmer og bøker).

Men hva med «Odin Nøsen» da? Er det meg selv jeg skriver om, eller har jeg en far eller onkel som heter det samme – og som har en blå Volvo? Det må du kanskje sjekke. Har du muligheten til å sjekke det på noe vis? Kan du være sikker på at «Odin Nøsen» er en identifiserbar fysisk person eller bare antar du noe? Jeg heter for øvrig Odin Hetland Nøsen.

Javel da, jeg skal slutte å flisespikke. La oss for dette avsnittet anta at «Odin Nøsen» er meg, en identifiserbar fysisk person. Men har jeg en blå Volvo? Hvordan skal du finne ut det? Obs… jeg spikker igjen. Jeg har ikke en blå Volvo. Er det fremdeles en personopplysning, selv om den vitterlig er feil? Personvernjuristen si at det er den, siden «Odin Nøsen» er en identifiserbar fysisk person og det er det som definerer om det er en personopplysning eller ikke. Så dette er en falsk personopplysning, siden den ikke stemmer med virkeligheten. Det er visst nok like ille som en ekte personopplysning. Personopplysninger trenger ikke være korrekte!

Jeg er ikke helt ferdig enda. Er dette en personopplysning?

ኦዲን ኖሰን ኣባል እዩ ውድብ መምህራን።

Eller dette?

9PKneomZjYTCZbfKz2p3UY5Qgi+NBaYrdr6HKtOiiCNTgAsxdZi72eZUanSEITtF

Eller faktisk dette?

Odin Nøsen er medlem av Utdanningsforbundet.

Felles for alle disse tre er at de inneholder den samme informasjonen. Samtidig krever det tilgang til ulike kontekster for å gjøre dem meningsfulle. Du må kunne dekode tegnene på skjermen til mening. Så må du vurdere om det gir mening eller om du trenger mer kontekst. Kan du tigrinja? Har du passordet som kan dekryptere den krypterte teksten? Er Odin Nøsen er ekte person? Og så videre. Alt krever kontekst! Hvis du ikke har tilgang til den nødvendige konteksten er opplysningen ikke en personopplysning – for deg.

La du merke til at jeg tidligere skrev at det først er en personopplysning når du kan knytte en opplysning til en identifiserbar fysisk person? Det er ikke nødvendigvis alle enige i. Mange personvernjurister leser personopplysningsloven slik at det skal stå noen, og da mener de virkelig at noen en gang i fremtiden i en enda ikke kjent situasjon eller kontekst, og også gjerne med ukjent teknologi tilgjengelig, kan knytte denne opplysningen til en identifiserbar fysisk person – og da gjøre det til en personopplysning, og derfor er det en personopplysning allerede nå. Anonymiseringen må være absolutt, og slik at ikke engang den behandlingsansvarlige kan koble opplysningene tilbake til en fysisk person.

Dette synes jeg som nevnt er et håpløst utgangspunkt. Verden er ikke laget slik. Den er kontekstuell og ikke absolutt. Du trenger nødvendig kontekst for å gjøre informasjon meningsfull, og mangler du den konteksten er ikke informasjonen meningsfull for deg. Hvis det er slik at informasjon kan regnes som personopplysninger hvis noen en gang i fremtiden fikk tilgang til det og denne noen hadde nødvendig kontekst for å kunne knytte den til en identifiserbar fysisk person, så sliter vi – og ingen vil egentlig trekke dette til sitt nødvendige endepunkt i alle situasjoner. Det må eksistere en grense for når en opplysning ikke er, eller kan bli, en personopplysning.

EU har faktisk blitt enig med seg selv om at kryptert informasjon ikke skal regnes som personopplysninger når de ligger lagret hos en tredjepart, så lengre tredjepart ikke har tilgang til nøkkelen som låser opp informasjonen. EU-domstolen har i tillegg sagt at hvis den som mottar / lagrer informasjon ikke kan gjøre informasjonen meningsfull innenfor en rimelig innsats, så er det ikke en personopplysning for denne. Sagt på en annen måte – hvis mottaker ikke har enkel nok tilgang til nødvendig kontekst for å gjøre informasjonen meningsfull, så er den ikke det – og altså heller ikke en personopplysning.

Dette er ikke tatt ut av luften. Begrepet relativ anonymisering kan nå begrunnes i flere rettslige avgjørelser i EU. Den første er EU-domstolens C-582/14 Breyer, hvor domstolen vurderte om en dynamisk IP-adresse i seg selv kan regnes som en personopplysning for et nettsted som mottar IP-adressen. Dommen slo fast at om en opplysning skal ansees som en personopplysning må gjøres ut fra perspektivet til den som har tilgang til opplysningen. En opplysning kan være en personopplysning for person A, som har tilgang til mer informasjon som kan brukes for å direkte eller indirekte identifisere en fysisk person, men ikke for person B som ikke har tilgang til den ekstra informasjonen. Vurderingen om en opplysning skal ansees som en personopplysning er derfor relativ.

Den andre er C-319/22 Scania hvor EU-domstolen skulle vurdere om et understellsnummer kunne regnes som en personopplysning. Med støtte i Breyer-saken sa domstolen at et kjøretøy sitt understellsnummer i seg selv ikke utgjør en personopplysning, fordi det kun kan knyttes til selve kjøretøyet. Det er først når den som har understellsnummeret med rimelighet har tilgang til midler som gjør det mulig å knytte opplysningen til en bestemt fysisk person, at understellsnummeret anses som en personopplysning. Et slikt middel kan være kjøretøyet sine registreringsopplysninger, hvor både understellsnummer samt navn og adresse til eieren av kjøretøyet fremgår. For den som har tilgang til registreringsopplysningene, utgjør derfor understellsnummeret en personopplysning. Siden Scania ikke hadde tilgang til annet en understellsnummeret var det for Scania sin del ikke å regne som en personopplysning.

​Den tredje er dommen i sak T-557/20 mellom Single Resolution Board (SRB) og European Data Protection Supervisor (EDPS) fra april 2023, som belyser grensen mellom pseudonymiserte og anonymiserte data, samt hvordan personopplysninger skal vurderes i lys av mottakerens mulighet til å identifisere enkeltpersoner.​

SRB, som er ansvarlig for håndtering av banker i krise i EU, gjennomførte en konsultasjonsprosess der aksjonærer og kreditorer kunne sende inn kommentarer via et nettbasert skjema (altså fritekstfelt!). For å beskytte personvernet ble hver kommentar tildelt en alfanumerisk kode, og identifiserende informasjon ble ikke delt med det eksterne konsulentselskapet Deloitte, som bistod SRB i analysen av kommentarene.​ Flere deltakere klaget til EDPS og mente at SRB ikke hadde informert dem om at deres kommentarer ville bli delt med Deloitte. EDPS konkluderte med at SRB hadde brutt informasjonsplikten ved å ikke opplyse om denne delingen.​ SRB anket EDPS sin avgjørelse til EUs domstol, som skulle vurdere følgende:​ Er dataene som ble delt med Deloitte å anse som personopplysninger? Retten understreket at vurderingen av om data er personopplysninger må ta utgangspunkt i mottakerens perspektiv, med henvisning til Breyer-saken. Siden Deloitte ikke hadde tilgang til tilleggsinformasjon som kunne identifisere individene bak kommentarene, og det ikke var rimelig sannsynlig at de kunne skaffe seg slik informasjon, konkluderte retten med at dataene ikke utgjorde personopplysninger for Deloitte. Det er viktig å understreke at domstolen i denne saken ikke vurderte om disse opplysningene var personopplysninger eller ikke. Retten fant at EDPS ikke hadde tilstrekkelig undersøkt om Deloitte faktisk hadde mulighet til å identifisere enkeltpersoner basert på de mottatte dataene. Uten en slik vurdering kunne ikke EDPS konkludere med at SRB hadde brutt informasjonsplikten. Basert på dette annullerte domstolen EDPS sin avgjørelse.​

Denne avgjørelsen har flere viktige konsekvenser:

  • Relativ vurdering av personopplysninger. Opplysninger som er pseudonymisert for en part kan være anonymisert for en annen, avhengig av mottakerens tilgang til tilleggsinformasjon.​
  • Vurdering fra mottakerens perspektiv. Ved deling av opplysninger må det vurderes om mottakeren har realistiske muligheter til å identifisere enkeltpersoner.​
  • Informasjonspliktens omfang. Forpliktelsen til å informere om deling av opplysninger gjelder kun hvis de delte dataene faktisk utgjør personopplysninger for mottakeren.​

Det er verdt å merke seg at EDPS har anket denne avgjørelsen til EU-domstolen (sak C-413/23), og en endelig avgjørelse er ennå ikke truffet.​

I vår kontekst kan vi bruke dette når vi kobler prateroboter opp mot for eksempel OpenAI sine API-løsninger for språkmodeller i KI i Randabergskolen.

  • Teksten kan inneholde opplysninger som navn (f.eks. “Jan Johansen”) og andre identifiserende opplysninger
    • Isolert sett kan dette være en identifikator, og spesielt fra avsenders side.
  • OpenAI har ikke nødvendig kontekst til å identifisere om det er personopplysninger i teksten
    • De vet ikke hvem du/avsender er.
    • De vet ikke hvor teksten kommer fra (skole, kommune, land).
    • De har ikke tilgang til noen form for identitetsregistre, som lar dem verifisere eller berike opplysningene.
  • Opplysningene behandles transient, altså uten lagring eller modelltrening
    • Uten lagring betyr at dataene ikke kan gjenbrukes eller rekonstrueres ved en senere anledning, og det kan heller ikke tilføres ny kontekst i etterkant.

Derfor kan ikke OpenAI gjøre teksten meningsfull i forhold til personopplysningsloven. De kan ikke identifisere personen eller forstå teksten som en personopplysning. Og bare så det er sagt – den som skriver inn til prateroboten behandler personopplysninger (og må ha lov til det), men prateroboten (OpenAI og språkmodellen) gjør det ikke. Det er dette relativ anonymitet betyr i praksis.

Faktisk er det også vanskelig for meg som behandlingsansvarlig å gjenkjenne opplysningene i KI i Randabergskolen som personopplysninger, om vi hadde lagret dem. KI i Randabergskolen knytter ingen ekstra opplysninger til det som blir skrevet inn i praterobotene, ut over det som den enkelte skriver. Selvfølgelig kjenner jeg Randabergskolen godt og vil kunne gjenkjenne navn og ulike situasjoner, hvis det blir beskrevet i teksten, men det vil være mer eller mindre tilfeldig ut fra hvilken kunnskap jeg har om navn og ulike saker i Randabergskolen. Jeg kjenner jo ikke til alt som skjer.

Jeg har derfor laget meg et tillegg til beskrivelsen i DPIA-en til KI i Randabergskolen:

“Selv om teksten inneholder potensielt identifiserende opplysninger, sendes den direkte via API til en tjeneste som ikke lagrer eller bruker informasjonen til egne formål, og som ikke har noen kontekst, tilleggskilder eller verifiserbare databaser til å identifisere personen. Vi vurderer derfor at mottakeren ikke har reell mulighet til å knytte opplysningene til en identifiserbar fysisk person. Opplysningene er dermed relativt anonymisert for tredjepart, og de bearbeider derfor ikke personopplysninger. Risikoen for personvernkrenkelser anses som lav.”

Dette stemmer mer med hvordan jeg opplever at verden virker. Det harmonerer også med EU-domstolens rettspraksis, og gir en mer realistisk balanse mellom personvernhensyn og samfunnets behov for å bruke opplysninger til forskning – og utdanning.

Jeg håper at vi kan bevege samtalen om personopplysninger videre med dette.

Datatilsynet har ikke snakket særlig høyt om dette. Lurer på hvorfor.

Kommentarer

2 kommentarer til “«Relativ anonymisering» virker – og er lov”

  1. Espen Smith-Meyer avatar
    Espen Smith-Meyer

    Interessant innlegg!

    I avslutningen, som handler om ChatGPT/OpenAI og Randabergskolen, så er det lett å være enig i at når «Opplysningene behandles transient, altså uten lagring eller modelltrening», så er det liten risiko for at noen har nok kontekst til å identifisere hvem som skriver hva.

    Men i mange andre tilfeller du er inne på tidligere i innlegget kommer nettopp LAGRING inn som et vesentlig punkt: At en databehandler ikke har nok konktekst til å gjøre en opplysning om til en faktisk personopplysning på et gitt tidspunkt, betyr ikke at databehandleren (eller andre) på et senere tidspunkt vil skaffe seg konteksten som trengs.
    Tror du ikke frykten for opphopning av opplysninger i seg selv er en viktig drivkraft for å være så strenge med hvilke opplysningen store selskaper skal få lov til å behandle?

  2. Odin avatar

    Her gjør du det mange gjør – du skriver «hvis» de ved en senere anledning får tilgang til flere opplysninger som gjør at de kan koble dette. Men det er et «hvis». Hvis det er slik at noen som lagrer opplysninger på vegne av deg vil begynne å behandle dem på en annen måte, så må de gi deg beskjed slik at du eventuelt kan slette informasjon du har lagret. Det må være begrensninger for hvor stort dette «hvis»-et kan være for at verden skal kunne fungere. Jeg kan ikke hele tiden tenke på alt mulig som kan skje om jeg går ut av huset hjemme. Tenk hvis…

Legg igjen en kommentar til Odin Avbryt svar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

This site uses Akismet to reduce spam. Learn how your comment data is processed.