En masse roboter i en dør.

Språkmodellene ramler inn

Når jeg satte opp «KI i Randabergskolen» på nyåret 2023 var det OpenAI med gpt-3.5-turbo og gpt-4 som rådde grunnen. Det gjør de enda, av grunner jeg kommer tilbake til, men konkurransen er blitt beinhard. OpenAI er ikke lengre de eneste som leverer språkmodeller og det betyr at jeg også må vurdere om det finnes bedre egnede løsninger for KI i Randabergskolen.

Jeg har nå koblet opp følgende språkmodeller til KI i Randabergskolen, og ting testes.

SpråkmodellPris lesing/skriving
(1M tokens)
Tokens buffer (L/S)TPM/RPM
OpenAI GPT-3.5-turbo
OpenAI GPT-4-turbo (visual)
OpenAI GPT-4o (multimodal)
$0.5 / $1.5
$10 / $30
$5 / $15
16384 / 4096
128 000 / 4096
128 000 / 4096
2M TPM / 10K RPM
1,5M TPM / 10K RPM
10M TPM
Google Gemini 1.5 Flash (multimodal)
Google Gemini 1.5 Pro (multimodal)
Google Gemma 7B
$0.35* / $1.05*
$3.5* / $10.5*
Gratis eller kjøres lokalt
1M / 8192
1M / 8192
8192
10M TPM / 360 RPM (10K RPD)
10M TPM / 360 RPM (10K RPD)
Gratis er 10K+ RPM
Anthropic Claude 3 Haiku (visual)
Anthropic Claude 3 Sonet (visual)
Anthropic Claude 3 Opus (visual)
$0.25 / $1.25
$3 / $15
$15 / $75
200 000 / 4096400K TPM / 4K RPM
10M TPD (per dag!)
Mistral Mistral 7B
Mistral Mixtral 8x7B
Gratis, kjøres lokalt32 768**Gratis er 10K+ RPM
Meta Llama 3 8B
Meta Llama 3 70B
Gratis eller kjøres lokalt8192***Gratis er 10K+ RPM
* Hvis ledeteksten har mer enn 128 000 tokens dobles prisen både for lesing og skriving.
** Mistral bruker en annen teknologi for hvor mange tokens den kan jobbe med. Den kan takle fra 8192 til 130 912 tokens, men kvaliteten på svaret blir dårligere i forhold til det som er i begynnelsen av ledeteksten om avstanden blir større enn 8192 tokens.
*** Hvis du velger å kjøre Llama 3 lokalt finnes det utgaver som støtter 1M tokens.

I tabellen over ser du at OpenAI kommer godt ut av det, både i forhold til pris og tilgjengelighet. «Tokens buffer» forteller noe om hvor stor tekst du kan legge inn og hvor mye den kan skrive i en omgang. TPM/RPM er to måleenheter for hvor mye KI-kraft du har tilgjengelig i språkmodellen – TPM er tokens per minute og RPM er requests per minute (og RPD er requests per day). Den forteller hvor mye tekst du kan lese/skrive i minuttet og den andre hvor ofte du kan sende en jobb i minuttet. Det skal sies at Anthropic har en egen avtale for de som trenger mer tilgjengelighet, men da må du opprette en helt egen avtale med dem. OpenAI og Google nevner også at du kan inngå egne avtaler, men er ikke veldig presise på hvordan.

Det hjelper lite om ting er billig om det ikke er bra nok til bruk i undervisning. Derfor er det viktig at en språkmodell har kvaliteter som er viktige for oss i skolen.

En av de viktige kvalitetene er at den støtter bokmål og nynorsk, og gjerne andre språk som ikke er uvanlige i norsk skole. 7B-modellene ramler raskt ut, fordi de ikke støtter norsk særlig bra. De er faktiske dårlige. Dette blir kanskje bedre når NorLLM blir integrert i noen av dem. Foreløpig er ikke testene skrudd sammen for dette, så det er vanskelig å si hvordan dette blir i praksis. De andre store modellene støtter bokmål og nynorsk rimelig bra. Ut fra det jeg har rukket av testing er det tydelig at OpenAI enda ligger et stykke foran de andre med støtte for veldig mange språk. Selv nye Claude gryntet motvillig når den måtte oversette tekst til tigrinja eller sør-samisk.

Jeg liker ofte å si at bøker er et brukergrensesnitt til kunnskap og at KI-assistenter kommer til å bli enda bedre brukergrensesnitt til kunnskap. Men – på samme måte som bøker er bærer av kultur er også KI bærer av kultur, og derfor kan ikke KI være sentralt styrt av noen få firma. Det er umulig å produsere et fordomsfritt KI-system, derfor må vi ha et fritt og mangfoldig utvalg av modeller hvor vi kan velge den løsningen som passer den enkeltes kulturkontekst best.

Når vi skal vurdere hvilket språkmodell som passer oss i norsk skole best vil meningene være mange, og det er helt ok og slik det skal være. Min erfaring så langt er at OpenAI sine modeller er svært hensynsfulle og vennlige, og villige til å diskutere vanskelige ting. Google sine modeller kan være pripne og har en masse tema de ikke rører, og her en del de burde røre (synes jeg). Franske Mistral er herlig mer fri, og også en fri språkmodell du kan trene til å oppføre seg slik du ønsker. Anthopic virker også å være en naturlig og omtenksom samtalepartner, som svarer trygt (på en positivt måte) og voksent på det meste.

Og hvor godt kjenner den norsk kultur og historie? Ingen språkmodell har enda bestått testen med å gjengi teksten til «Lisa gikk til skolen». 7B-modeller har en lei tendens til ikke å vite helt hvem Ivar Aasen var, og til og med de store tunge språkmodellene konfabulerer en del om norske forfattere. Det blir spennende å se om NorLLM kan gjøre noe med dette, eller om det handler mest om språkdrakten. Uansett – her ser det ut til at større språkmodeller er trent bedre enn små, men likevel konfabulerer alle når temaet blir særnorsk.

Så hvilken løsning passer best for norsk skole? Tja. Valget er ikke så vanskelig akkurat i dag. Det er bare OpenAI som leverer en tjeneste som er god nok og samtidig rimelig. Google Gemini er litt for prippen og vrang (synes jeg), og RPM er for lav til å sette den i en større produksjon. Anthropic sin Claude 3 Haiku blir spennende å prøve ut som et alternativ til gpt-3.5-turbo, når den blir tilgjengelig. Anthropic har i tillegg mange kvaliteter som kan overgå OpenAI, men den ser ut til å mangle det rike språkutvalget som OpenAI ser ut til å beherske.

Anthropic har forresten utrolig mye og god dokumentasjon om språkmodeller generelt. De har laget en veileder for ledetekster som overgår det meste jeg har sett, og de har også en systemledetekst som også er meget bra og som deres en av deres egne forskere forklarer her. Jeg liker at Anthropic er så åpne som de er.

Det er godt av vi har flere språkmodeller å velge mellom, og jeg håper dagen kommer da vi kan velge en av de åpne modellene som vi setter opp til å virke akkurat slik vi vil ha den i norsk skole.

Oppdatert 14. mars 2024 – Da er Claude 3 Haiku også på plass. Denne er billigere og mye bedre enn gpt-3.5-turbo, og den støtter også lesing av bilder. Så valget er ikke så enkelt lengre. OpenAI gpt-3.5-turbo eller Anthropic Claude 3 Haiku? Slik det ser ut nå kommer det til å handle om du trenger de ekstra språkene OpenAI ser ut til å prioritere mer enn Anthropic.

Oppdatert 25. mai 2024 – Har lagt inn Llama 3 og Gemini 1.5 Flash og Pro. Llama 3 er rett inn på øversteplass i forhold til frie og gratis språkmodeller, og 70B-modellen er også bedre enn gpt-35-turbo og Haiku, og kan på noen områder også måle seg med Sonnet og gpt-4o. Gå gjerne inn på cc.tenkemotoren.no og prøv en gratis kopi av KI i Randabergskolen, hvor alt er drevet med Llama 3 70B.

Kommentarer

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Dette nettstedet bruker Akismet for å redusere spam. Lær om hvordan dine kommentar-data prosesseres.