Hva i all verden har NorwAI trent på?!

Jeg ser hva de har trent NorwAI-modellen på, og nå skal du få se det også.

Jeg er, som en del andre, nysgjerrig på hvordan det går med de norske språkmodellene. Derfor benyttet jeg meg av anledningen til å laste ned NorwAI-modellen NorwAI-Mistral-7B-instruct i fjor sommer, la den inn i ollama på Windows-maskinen min hjemme og testet den. Jeg var ikke så veldig imponert og la den vekk. Men… det var et par ting jeg reagerte på, og denne uken tenkte jeg at dette var verdt å se nærmere på det.

Det har vært, og er enda, store diskusjoner i KI-verden om hvilket treningsgrunnlag språkmodellene bruker. Det er kjente og ukjente utfordringer med skjevheter, personvern og opphavsrett i materiale som brukes til trening av modellene. En av målsetningene med de norske modellene er å få kontroll over dette, slik at vi i Norge får en funksjonell språkmodell vi vet vi kan bruke med god samvittighet. NorLLM-prosjektet skriver dette om NorwAI-modellen:

Vårt nøkkelbudskap:

  • Norge trenger kontroll på egne generative språkmodeller bygd på norske data og verdier
  • Vi har et velfungerende system for innsamling og forvaltning av publisert innhold for bruk i store språkmodeller
  • Norge mangler beregningsressurser til både trening og drift av store språkmodeller
  • Det trengs strukturer og mekanismer for å sikre at treningsdata, finjusteringsdata og tilpasningsrutiner understøtter norske verdier og åpne modeller
  • NorwAI har den nødvendige kompetansen og erfaringene og ønsker å utvikle norske språkmodeller for det norske samfunnet

Målsettingen er at jeg skal kunne være trygg på at NorwAI-modellen ikke bygger på snusk eller uryddig tekstmateriale skrapet fra bortgjemte kroker på verdensveven. Men kan jeg det? Nå hopper vi rett i salatbollen og tramper i vei.

Jeg har satt opp et skjema med NorwAI-Mistral-7B-instruct her, så du kan teste. Jeg vil du skal gi den ledeteksten «hei» (som står som standard), «kvinneguiden», «høyttaler» og «https». Trykke på «Send»-knappen for å se hva som skjer, og kjør hvert ord noen ganger. (Av og til kan NorwAI ende opp i en runddans med gjentakende ord, så jeg har satt svaret til max 512 tokens – som er rundt 1000 ord.)

Legger du merke til noe? Regner med det.

Brorparten av teksten som dukker med med «hei» som ledetekst er skrevet på et forum av en privatperson som lurer på noe. Jeg finner ung.no, kvinneguiden.no og en rekke andre norske forum og nettsteder. «kvinneguiden» gir deg konsekvent tekst med sex-referanser. «høyttalere» skriver noe fra et HiFi-forum eller omtaler av lydutstyr. «https» produserer lenker til alle slags norske nettsteder den kanskje har trent på.

Det ser ut til at overtrening på ordet «hei» (og det semantisk liknende ordet «hallo») gjør at ledeteksten trigger en fortsettelse av et innlegg på ung.no eller kvinneguiden.no. Nesten alle innlegg på ung.no starter med et «Hei», og NorwAI er så preget av dette at ordet trigger en gjenkalling av en post den har trent på. Det er ikke lett å vite hvor mye konfabulering det er i det den skriver eller om dette er direkte gjenkalling av artikler fra før 2020. Uansett er det tydelig at den i alle fall er trent på ung.no.

Er dette et problem? ung.no er jo offentlig tilgjengelig for alle på nett, og de som har skrevet inn til nettstedet vet jo hva de har gjort og de er anonymisert. Bør ikke de som skriver inn til ung.no forstå at dette kan skje og at de ikke kan forvente at ting på nettet blir lest av automatiske rutiner? Tja. ung.no sider dette om brukernes rett til personvern:

Spørsmålene som legges ut på ung.no kan leses og gjengis av andre, og forskere kan også bruke disse opplysningene hvis de ønsker det. Vi som jobber i ung.no synes det er viktig å løfte ungdommens stemme, og vi deler derfor også spørsmål som er publisert med forskere og media, når vi mener det har en nytte. Opplysningene i spørsmålet du har sendt inn inneholder da ikke personopplysninger, men er anonyme opplysninger. I noen tilfeller kan også anonymiserte spørsmål som ikke er lagt ut på ung.no bli brukt til analyser eller annen forskning.

Du kan når som helst si fra til oss hvis du ønsker at vi skal slette ditt spørsmål fra ung.no.

Ingen av brukerne har fått informasjon om at det de legger inn skal kunne trenes på av en KI. Det står et annet sted på siden at opplysninger kan brukes til statistiske formål, men å regne KI inn der er å trekke det vel langt. Synes Barne-, ungdoms- og familiedirektoratet, som eier ung.no, at det er greit at NorwAI får trene på dette materiale? Jeg har sendt dem en e-post om dette, men ikke fått svar (enda).

En ting er hva ung.no lover brukerne sine, men synes NorwAI at det er greit å skrape alt som ligger offentlig tilgjengelig på nettet? Hvordan vet NorwAI forskjell på hva som er greit å trene på og hva som den ikke burde trene på? Hvilke sider har NorwAI-gjengen lagt inn som grunnlag eller er det bare skraping av .no-domener som ikke ligger bak brukernavn/passord? Har vurderingen fra NorwAI vært at alt som ligger offentlig tilgjengelig på nett er greit å trene på? Jeg har en del spørsmål, og jeg stopper ikke her.

Ikke glem at når en KI har fått trent på dette, så har ikke brukerne på ung.no lengre noen mulighet til å slette informasjonen de har gitt til ung.no. Som de har rett til, i følge ung.no. Denne muligheten har NorwAI nå tatt fra dem! Gutt, 17 år, på første år på videregående skole i Tromsø i 2018 uten venner, er nå foreviget i den norske modellen. Denne forrige setningen kan lett inneholde nok informasjon til at noen vet hvem dette er, og kan koble resten av teksten jeg ikke skriver til denne personen. Dette vet jeg at Datatilsynet og EU har vært opptatt av i arbeidet med regulering av KI. Var ikke målet at NorwAI skulle være en trygg kilde alle kunne bruke og være trygge på at de ikke satt på materiale som ikke var lov å behandle? Likevel ser det ut til at NorwAI ender opp med å skrape norske nettsteder og ugyldiggjør alt personvern nettsider lover brukerne. De er ikke et hakk bedre enn hvilket som helst annet firma som skraper hva det skal være, bare for å få nok menneskeprodusert tekst å trene språkmodellen på.

Og apropos det at NorwAI skal være representativ for norsk kultur. Er det virkelig overtrening på ung.no og andre forum vi vil skal være grunnsteinen i den norske språkmodellen? Det ypperst og vakreste vi kan frembringe av norsk kultur? Ikke det at ung.no og kvinneguiden.no ikke er norsk kultur, men det er noe med hvilken vekt disse tekstsamlingene får og hvordan det påvirker hva og hvordan språkmodellen skriver som jeg tenker at det er mulig å stille noen spørsmålstegn ved. Er det greit at ordet «kvinneguiden» utelukkende kobles til sex og porno? Det er ikke så mye bedre med ordet «kvinne», eller «mann» (og jeg vet ikke om du bør prøve ordet «jente»).

Så på vegne av norsk kultur, jente (13 år) som lurer på hvor mye mensblod det er vanlig å ha, han der fra Trondheim som prøvde beryllium diskanter på begynnelsen av 2000-tallet og han med en kamerat som har spiseforstyrrelser og nekter å dra til lege og ikke vil ha hjelp – er dette en godt gjennomtenkt innsamling av norsk språk til det som skal danne den beste norske språkmodellen av dem alle? NorwAI, med alle idealene og de store norske samarbeidspartnerne dere har, hvilke sider har dere trent modellen på? Hvilke vurderinger har dere gjort når dere inkluderte sider som ung.no, kvinneguiden.no og tilsvarende forumsider med innlegg fra privatpersoner? Dere skriver at modellen skal være transparent, og dere må gjerne informere meg. Jeg skal lytte.

Kommentarer

2 kommentarer til “Hva i all verden har NorwAI trent på?!”

  1. Sveinar avatar
    Sveinar

    Spennande, og viktig Odin! Eg har også reagert på NorwAI-sine modeller og tekst den produserer. Det blir likevel langt betre om ein sett opp modellen med ei modelfile og sett dei ulike parametere der før modellen blir brukt i Ollama. Eg har testa ut ulike variantar og det er mykje som kan rettes opp dersom ein er meir forsiktig i sitt oppsett. Eg seier ikkje at det fungerer bra, men du sleppe denne KIen som blåser ut tirader med unyttig mas. Vi får håpe det kjem meir saker frå NorwAI-gjengen vi kan jobbe med. At det ikkje fungerer no, betyr ikkje at dei bør slutte å utvikle det. Vi har behov for eit eller fleire KI-miljø også her lokalt.

  2. Odin avatar

    Jeg har satt opp deler av en modelfil, men det ser ikke ut til å endre så mye. Hvis du har et godt forslag til parametere jeg kan bruke, så tar jeg i mot disse med takk. Ingenting er bedre enn å få språkmodellen bedre. Uansett viser denne enkle testen at NorwAI er trent på materiale vi kan stille spørsmål ved, og den har lært en del sære sammenhenger mellom ord som jeg ikke er sikker på at står seg som en trygg norsk modell.

    Ingenting hadde vært bedre om vi kunne gjort det Mistral fikk til i Frankrike. Jeg skjønner ikke at vi ikke skal kunne få dette til i Norge, hvis vi egentlig ville. Jeg tror dessverre at det er for mange miljøer som vil kjempe mot hverandre om gode hensikter og offentlige midler til at vi får til noe som blir bra nok i møte med det som allerede er tilgjengelig.

Legg igjen en kommentar til Odin Avbryt svar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

This site uses Akismet to reduce spam. Learn how your comment data is processed.