En masse roboter i en dør.

Språkmodellene ramler inn

Når jeg satte opp «KI i Randabergskolen» på nyåret 2023 var det OpenAI med gpt-3.5-turbo og gpt-4 som rådde grunnen. Det gjør de enda, av grunner jeg kommer tilbake til, men konkurransen er blitt beinhard. OpenAI er ikke lengre de eneste som leverer språkmodeller og det betyr at jeg også må vurdere om det finnes bedre egnede løsninger for KI i Randabergskolen.

Jeg har nå koblet opp følgende språkmodeller til KI i Randabergskolen, og ting testes.

SpråkmodellPris lesing/skrivingTokens buffer (L/S)TPM/RPM
OpenAI GPT-3.5-turbo
OpenAI GPT-4-turbo
$0.5/1M tokens / $1.5/1M tokens
$10/1M tokens / $30/1M tokens
128 000 / 40962M TPM / 10K RPM
1,5M TPM / 10K RPM
Google Gemini 1.0 pro Vision
Google Gemma 7B
$0.125/1M tegn / $0.375/1M tegn*
Gratis eller kjøres lokalt
30 720 / 2048
8192
60 RPM
Gratis er 10K RPM
Anthropic Claude 3 Haiku
Anthropic Claude 3 Sonet
Anthropic Claude 3 Opus
$0.25/1M tokens / $1.25/1M tokens
$3/1M tokens / $15/1M tokens
$15/1M tokens / $75 1M tokens
200 000 / 4096400K TPM / 4K RPM
10M TPD (per dag!)
Mistral Mistral 7B
Mistral Mixtral 8x7B
Gratis, kjøres lokalt eller kjøpes av Mistral32 768**Gratis er 10K RPM
Meta Llama 2 7BGratis eller kjøres lokalt2048Gratis er 10K RPM
* Google regner pris ut i tegn og ikke i tokens. Det er vanlig å si at et token er omtrent 4 tegn på engelsk, så du kan multiplisere Googles pris med 4 for å sammenlikne dem med de andre.

** Mistral bruker en annen teknologi for hvor mange tokens den kan jobbe med. Den kan takle fra 8192 til 130 912 tokens, men kvaliteten på skrivingen blir dårligere i forhold til det som er i begynnelsen av teksten om avstanden blir større enn 8192 tokens.

I tabellen over ser du at OpenAI kommer godt ut av det, både i forhold til pris og tilgjengelighet. «Tokens buffer» forteller noe om hvor stor tekst du kan legge inn og hvor mye den kan skrive i en omgang. TPM/RPM er to måleenheter for hvor mye KI-kraft du har tilgjengelig i språkmodellen – TPM er tokens per minute og RPM er requests per minute. Den forteller hvor mye tekst du kan lese/skrive i minuttet og den andre hvor ofte du kan sende en jobb i minuttet. Det skal sies at Anthropic har en egen avtale for de som trenger mer tilgjengelighet, men da må du opprette en helt egen avtale med dem.

Det hjelper lite om ting er billig om det ikke er bra nok til bruk i undervisning. Derfor er det viktig at en språkmodell har kvaliteter som er viktige for oss i skolen.

En av de viktige kvalitetene er at den støtter bokmål og nynorsk, og gjerne andre språk som ikke er uvanlige i norsk skole. 7B-modellene ramler raskt ut, fordi de ikke støtter norsk særlig bra. De er faktiske dårlige. Dette blir kanskje bedre når NorLLM blir integrert i noen av dem. Foreløpig er ikke testene skrudd sammen for dette, så det er vanskelig å si hvordan dette blir i praksis. De andre store modellene støtter bokmål og nynorsk rimelig bra. Samtidig er det, ut fra det jeg har rukket av testing, tydelig at OpenAI enda ligger et stykke foran de andre med støtte for veldig mange språk. Selv nye Claude gryntet motvillig når den måtte oversette tekst til tigrinja eller sør-samisk.

Jeg liker ofte å si at bøker er et brukergrensesnitt til kunnskap og at KI-assistenter kommer til å bli enda bedre brukergrensesnitt til kunnskap. Men – på samme måte som bøker er bærer av kultur er også KI bærer av kultur, og derfor kan ikke KI være sentralt styrt av noen få firma. Det er umulig å produsere et fordomsfritt KI-system, derfor må vi ha et fritt og mangfoldig utvalg av modeller hvor vi kan velge den løsningen som passer den enkeltes kulturkontekst best.

Når vi skal vurdere hvilket språkmodell som passer oss i norsk skole best vil meningene være mange, og det er helt ok og slik det skal være. Min erfaring så langt er at OpenAI sine modeller er svært hensynsfulle og vennlige, og villige til å diskutere vanskelige ting. Google sine modeller kan være pripne og har en masse tema de ikke rører, og her en del de burde røre (synes jeg). Franske Mistral er herlig mer fri, og også en fri språkmodell du kan trene til å oppføre seg slik du ønsker. Anthopic virker også å være en naturlig og omtenksom samtalepartner, som svarer trygt (på en positivt måte) og voksent på det meste.

Og hvor godt kjenner den norsk kultur og historie? Ingen språkmodell har enda bestått testen med å gjengi teksten til «Lisa gikk til skolen». 7B-modeller har en lei tendens til ikke å vite helt hvem Ivar Aasen var, og til og med de store tunge språkmodellene konfabulerer en del om norske forfattere. Det blir spennende å se om NorLLM kan gjøre noe med dette, eller om det handler mest om språkdrakten. Uansett – her ser det ut til at større språkmodeller er trent bedre enn små, men likevel konfabulerer alle når temaet blir særnorsk.

Så hvilken løsning passer best for norsk skole? Tja. Valget er ikke så vanskelig akkurat i dag. Det er bare OpenAI som leverer en tjeneste som er god nok og samtidig rimelig. Google Gemini er litt for prippen og vrang (synes jeg), og RPM er for lav til å sette den i en større produksjon. Anthropic sin Claude 3 Haiku blir spennende å prøve ut som et alternativ til gpt-3.5-turbo, når den blir tilgjengelig. Anthropic har i tillegg mange kvaliteter som kan overgå OpenAI, men den ser ut til å mangle det rike språkutvalget som OpenAI ser ut til å beherske.

Oppdatert 14. mars 2024 – Da er Claude 3 Haiku også på plass. Denne er billigere og mye bedre enn gpt-3.5-turbo, og den støtter også lesing av bilder. Så valget er ikke så enkelt lengre. OpenAI gpt-3.5-turbo eller Anthropic Claude 3 Haiku? Slik det ser ut nå kommer det til å handle om du trenger de ekstra språkene OpenAI ser ut til å prioritere mer enn Anthropic.

Anthropic har forresten utrolig mye og god dokumentasjon om språkmodeller generelt. De har laget en veileder for ledetekster som overgår det meste jeg har sett, og de har også en systemledetekst som også er meget bra og som deres en av deres egne forskere forklarer her. Jeg liker at Anthropic er så åpne som de er.

Det er godt av vi har flere språkmodeller å velge mellom, og jeg håper dagen kommer da vi kan velge en av de åpne modellene som vi setter opp til å virke akkurat slik vi vil ha den i norsk skole.

Kommentarer

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Dette nettstedet bruker Akismet for å redusere spam. Lær om hvordan dine kommentar-data prosesseres.