Jeg ser hva de har trent NorwAI-modellen på, og nå skal du få se det også.
Jeg er, som en del andre, nysgjerrig på hvordan det går med de norske språkmodellene. Derfor benyttet jeg meg av anledningen til å laste ned NorwAI-modellen NorwAI-Mistral-7B-instruct i fjor sommer, la den inn i ollama på Windows-maskinen min hjemme og testet den. Jeg var ikke så veldig imponert og la den vekk. Men… det var et par ting jeg reagerte på, og denne uken tenkte jeg at dette var verdt å se nærmere på det.
Det har vært, og er enda, store diskusjoner i KI-verden om hvilket treningsgrunnlag språkmodellene bruker. Det er kjente og ukjente utfordringer med skjevheter, personvern og opphavsrett i materiale som brukes til trening av modellene. En av målsetningene med de norske modellene er å få kontroll over dette, slik at vi i Norge får en funksjonell språkmodell vi vet vi kan bruke med god samvittighet. NorLLM-prosjektet skriver dette om NorwAI-modellen:
Vårt nøkkelbudskap:
- Norge trenger kontroll på egne generative språkmodeller bygd på norske data og verdier
- Vi har et velfungerende system for innsamling og forvaltning av publisert innhold for bruk i store språkmodeller
- Norge mangler beregningsressurser til både trening og drift av store språkmodeller
- Det trengs strukturer og mekanismer for å sikre at treningsdata, finjusteringsdata og tilpasningsrutiner understøtter norske verdier og åpne modeller
- NorwAI har den nødvendige kompetansen og erfaringene og ønsker å utvikle norske språkmodeller for det norske samfunnet
Målsettingen er at jeg skal kunne være trygg på at NorwAI-modellen ikke bygger på snusk eller uryddig tekstmateriale skrapet fra bortgjemte kroker på verdensveven. Men kan jeg det? Nå hopper vi rett i salatbollen og tramper i vei.
Jeg har satt opp et skjema med NorwAI-Mistral-7B-instruct her, så du kan teste. Jeg vil du skal gi den ledeteksten «hei» (som står som standard), «kvinneguiden», «høyttaler» og «https». Trykke på «Send»-knappen for å se hva som skjer, og kjør hvert ord noen ganger. (Av og til kan NorwAI ende opp i en runddans med gjentakende ord, så jeg har satt svaret til max 512 tokens – som er rundt 1000 ord.)
Legger du merke til noe? Regner med det.
Brorparten av teksten som dukker med med «hei» som ledetekst er skrevet på et forum av en privatperson som lurer på noe. Jeg finner ung.no, kvinneguiden.no og en rekke andre norske forum og nettsteder. «kvinneguiden» gir deg konsekvent tekst med sex-referanser. «høyttalere» skriver noe fra et HiFi-forum eller omtaler av lydutstyr. «https» produserer lenker til alle slags norske nettsteder den kanskje har trent på.
Det ser ut til at overtrening på ordet «hei» (og det semantisk liknende ordet «hallo») gjør at ledeteksten trigger en fortsettelse av et innlegg på ung.no eller kvinneguiden.no. Nesten alle innlegg på ung.no starter med et «Hei», og NorwAI er så preget av dette at ordet trigger en gjenkalling av en post den har trent på. Det er ikke lett å vite hvor mye konfabulering det er i det den skriver eller om dette er direkte gjenkalling av artikler fra før 2020. Uansett er det tydelig at den i alle fall er trent på ung.no.
Er dette et problem? ung.no er jo offentlig tilgjengelig for alle på nett, og de som har skrevet inn til nettstedet vet jo hva de har gjort og de er anonymisert. Bør ikke de som skriver inn til ung.no forstå at dette kan skje og at de ikke kan forvente at ting på nettet blir lest av automatiske rutiner? Tja. ung.no sider dette om brukernes rett til personvern:
Spørsmålene som legges ut på ung.no kan leses og gjengis av andre, og forskere kan også bruke disse opplysningene hvis de ønsker det. Vi som jobber i ung.no synes det er viktig å løfte ungdommens stemme, og vi deler derfor også spørsmål som er publisert med forskere og media, når vi mener det har en nytte. Opplysningene i spørsmålet du har sendt inn inneholder da ikke personopplysninger, men er anonyme opplysninger. I noen tilfeller kan også anonymiserte spørsmål som ikke er lagt ut på ung.no bli brukt til analyser eller annen forskning.
Du kan når som helst si fra til oss hvis du ønsker at vi skal slette ditt spørsmål fra ung.no.
Ingen av brukerne har fått informasjon om at det de legger inn skal kunne trenes på av en KI. Det står et annet sted på siden at opplysninger kan brukes til statistiske formål, men å regne KI inn der er å trekke det vel langt. Synes Barne-, ungdoms- og familiedirektoratet, som eier ung.no, at det er greit at NorwAI får trene på dette materiale? Jeg har sendt dem en e-post om dette, men ikke fått svar (enda).
En ting er hva ung.no lover brukerne sine, men synes NorwAI at det er greit å skrape alt som ligger offentlig tilgjengelig på nettet? Hvordan vet NorwAI forskjell på hva som er greit å trene på og hva som den ikke burde trene på? Hvilke sider har NorwAI-gjengen lagt inn som grunnlag eller er det bare skraping av .no-domener som ikke ligger bak brukernavn/passord? Har vurderingen fra NorwAI vært at alt som ligger offentlig tilgjengelig på nett er greit å trene på? Jeg har en del spørsmål, og jeg stopper ikke her.
Ikke glem at når en KI har fått trent på dette, så har ikke brukerne på ung.no lengre noen mulighet til å slette informasjonen de har gitt til ung.no. Som de har rett til, i følge ung.no. Denne muligheten har NorwAI nå tatt fra dem! Gutt, 17 år, på første år på videregående skole i Tromsø i 2018 uten venner, er nå foreviget i den norske modellen. Denne forrige setningen kan lett inneholde nok informasjon til at noen vet hvem dette er, og kan koble resten av teksten jeg ikke skriver til denne personen. Dette vet jeg at Datatilsynet og EU har vært opptatt av i arbeidet med regulering av KI. Var ikke målet at NorwAI skulle være en trygg kilde alle kunne bruke og være trygge på at de ikke satt på materiale som ikke var lov å behandle? Likevel ser det ut til at NorwAI ender opp med å skrape norske nettsteder og ugyldiggjør alt personvern nettsider lover brukerne. De er ikke et hakk bedre enn hvilket som helst annet firma som skraper hva det skal være, bare for å få nok menneskeprodusert tekst å trene språkmodellen på.
Og apropos det at NorwAI skal være representativ for norsk kultur. Er det virkelig overtrening på ung.no og andre forum vi vil skal være grunnsteinen i den norske språkmodellen? Det ypperst og vakreste vi kan frembringe av norsk kultur? Ikke det at ung.no og kvinneguiden.no ikke er norsk kultur, men det er noe med hvilken vekt disse tekstsamlingene får og hvordan det påvirker hva og hvordan språkmodellen skriver som jeg tenker at det er mulig å stille noen spørsmålstegn ved. Er det greit at ordet «kvinneguiden» utelukkende kobles til sex og porno? Det er ikke så mye bedre med ordet «kvinne», eller «mann» (og jeg vet ikke om du bør prøve ordet «jente»).
Så på vegne av norsk kultur, jente (13 år) som lurer på hvor mye mensblod det er vanlig å ha, han der fra Trondheim som prøvde beryllium diskanter på begynnelsen av 2000-tallet og han med en kamerat som har spiseforstyrrelser og nekter å dra til lege og ikke vil ha hjelp – er dette en godt gjennomtenkt innsamling av norsk språk til det som skal danne den beste norske språkmodellen av dem alle? NorwAI, med alle idealene og de store norske samarbeidspartnerne dere har, hvilke sider har dere trent modellen på? Hvilke vurderinger har dere gjort når dere inkluderte sider som ung.no, kvinneguiden.no og tilsvarende forumsider med innlegg fra privatpersoner? Dere skriver at modellen skal være transparent, og dere må gjerne informere meg. Jeg skal lytte.
Legg igjen en kommentar til Odin Avbryt svar