Språkmodellene ramler inn

Når jeg satte opp «KI i Randabergskolen» på nyåret 2023 var det OpenAI med gpt-3.5-turbo og gpt-4 som rådde grunnen. Nå er konkurransen blitt beinhard. OpenAI er ikke lengre de eneste som leverer gode språkmodeller og det betyr at jeg også må vurdere om det finnes bedre egnede løsninger for KI i Randabergskolen.

Jeg har nå koblet opp følgende språkmodeller til KI i Randabergskolen, og ting testes (oppdatert 24. juli 2024).

Språkmodell	Pris lesing/skriving (1M tokens)	Tokens buffer (L/S)	TPM/RPM
OpenAI ~~GPT-3.5-turbo (sep-21)~~ GPT-4o mini (okt-23) GPT-4-turbo (visual) (des-23) GPT-4o (multimodal) (okt-23)	$0.5 / $1.5 $0.15 / $0.6 $10 / $30 $5 / $15	16384 / 4096 128 000 / 4096 128 000 / 4096 128 000 / 4096	2M TPM / 10K RPM 15M TPM / 10K RPM 2M TPM / 10K RPM 30M TPM / 10K RPM
Google Gemini 1.5 Flash (multimodal) Gemini 1.5 Pro (multimodal)	$0.35* / $1.05* $3.5* / $10.5*	1M / 8192 1M / 8192	10M TPM / 360 RPM (10K RPD) 10M TPM / 360 RPM (10K RPD)
Anthropic Claude 3 Haiku (visual) Claude 3.5 Sonet (visual) Claude 3 Opus (visual)	$0.25 / $1.25 $3 / $15 $15 / $75	200 000 / 4096	400K TPM / 4K RPM 10M TPD (per dag!)
Mistral Mistral 7B Mixtral 8x7B	Gratis, eller kjøres lokalt	32 768**	Gratis er 10K+ RPM
Meta Llama 3.1 8B (des-23) Llama 3.1 70B (des-23) Llama 3.1 405B (des-23)	Gratis, eller kjøres lokalt	128 000	Gratis er 10K+ RPM

* Hvis ledeteksten har mer enn 128 000 tokens dobles prisen både for lesing og skriving.
** Mistral bruker en annen teknologi for hvor mange tokens den kan jobbe med. Den kan takle fra 8192 til 130 912 tokens, men kvaliteten på svaret blir dårligere i forhold til det som er i begynnelsen av ledeteksten om avstanden blir større enn 8192 tokens.

I tabellen over ser du at OpenAI kommer godt ut av det, både i forhold til pris og tilgjengelighet. «Tokens buffer» forteller noe om hvor stor tekst du kan legge inn og hvor mye den kan skrive i en omgang. TPM/RPM er to måleenheter for hvor mye KI-kraft du har tilgjengelig i språkmodellen – TPM er tokens per minute og RPM er requests per minute (og RPD er requests per day). Den forteller hvor mye tekst du kan lese/skrive i minuttet og den andre hvor ofte du kan sende en jobb i minuttet. Det skal sies at Anthropic har en egen avtale for de som trenger mer tilgjengelighet, men da må du opprette en helt egen avtale med dem. OpenAI og Google nevner også at du kan inngå egne avtaler, men er ikke veldig presise på hvordan.

Det hjelper lite om ting er billig om det ikke er bra nok til bruk i undervisning. Derfor er det viktig at en språkmodell har kvaliteter som er viktige for oss i skolen.

En av de viktige kvalitetene er at den støtter bokmål og nynorsk, og gjerne andre språk som ikke er uvanlige i norsk skole. 7B-modellene ramler raskt ut, fordi de ikke støtter norsk særlig bra. De er faktiske dårlige. Dette blir kanskje bedre når NorLLM blir integrert i noen av dem. Foreløpig er ikke testene skrudd sammen for dette, så det er vanskelig å si hvordan dette blir i praksis. De andre store modellene støtter bokmål og nynorsk rimelig bra. Samtidig er det viktig å si at ting endrer seg raskt, og ikke nødvendigvis til det bedre!

Jeg liker ofte å si at bøker er et brukergrensesnitt til kunnskap og at KI-assistenter kommer til å bli enda bedre brukergrensesnitt til kunnskap. Men – på samme måte som bøker er bærer av kultur er også KI bærer av kultur, og derfor kan ikke KI være sentralt styrt av noen få firma. Det er umulig å produsere et fordomsfritt KI-system, derfor må vi ha et fritt og mangfoldig utvalg av modeller hvor vi kan velge den løsningen som passer den enkeltes kulturkontekst best.

Når vi skal vurdere hvilket språkmodell som passer oss i norsk skole best vil meningene være mange, og det er helt ok og slik det skal være. Min erfaring så langt er at OpenAI sine modeller er svært hensynsfulle og vennlige, og kan være villige til å diskutere vanskelige ting. Google sine modeller kan være pripne og har en masse tema de ikke rører, og her en del de burde røre (synes jeg). Franske Mistral er herlig mer fri, og også en fri språkmodell du kan trene til å oppføre seg slik du ønsker. Anthopic virker også å være en naturlig og omtenksom samtalepartner, som svarer trygt (på en positivt måte) og voksent på det meste. Meta er med på det meste og har få sperrer, ut over det helt innlysende.

Og hvor godt kjenner den norsk kultur og historie? Ingen språkmodell har enda bestått testen med å gjengi teksten til «Lisa gikk til skolen». 7B-modeller har en lei tendens til ikke å vite helt hvem Ivar Aasen var, og til og med de store tunge språkmodellene konfabulerer en del om norske forfattere. Det blir spennende å se om NorLLM kan gjøre noe med dette, eller om det handler mest om språkdrakten. Uansett – her ser det ut til at større språkmodeller er trent bedre enn små, men likevel konfabulerer alle når temaet blir særnorsk.

Så hvilken løsning passer best for norsk skole? Tja. OpenAI leverer en god tjeneste, både i GPT-4o og GPT-4o mini, og til en god pris. GPT-4o er høflig, imøtekommende og hjelpsom. gpt-3.5-turbo er vekke til fordel for gpt-4o mini. Google Gemini er litt for prippen og vrang (synes jeg), og RPM er for lav til å sette den i en større produksjon. Anthropic Claude 3 Haiku er den som konkurrer mot gpt-4o mini, men den er noe dyrere. Anthopic har kvaliteter som overgår OpenAI sine modeller, spesielt har Claude en personlighet som overgår GPT i hvordan den hjelper deg med det du prøver å få til.

Anthropic har forresten utrolig mye og god dokumentasjon om språkmodeller generelt. De har laget en veileder for ledetekster som overgår det meste jeg har sett, og de har også en systemledetekst som også er meget bra og som deres en av deres egne forskere forklarer her. Jeg liker at Anthropic er så åpne som de er.

Nå er Meta sine åpne Llama-modeller en alvorlig konkurrent mot alle de lukkede modellene til OpenAI, Google og Anthropic. Den beste modellen til Meta er minst like god som GPT-4o og Claude 3.5 Sonnet. Llama er også høflig og hjelpsom, og den har få kulturelle sperrer (og det liker jeg godt)!

Det er godt av vi har flere språkmodeller å velge mellom, og jeg håper dagen kommer da vi kan velge en av de åpne modellene som vi setter opp til å virke akkurat slik vi vil ha den i norsk skole.

Oppdatert 14. mars 2024 – Da er Claude 3 Haiku også på plass. Denne er billigere og mye bedre enn gpt-3.5-turbo, og den støtter også lesing av bilder. Så valget er ikke så enkelt lengre. OpenAI gpt-3.5-turbo eller Anthropic Claude 3 Haiku? Slik det ser ut nå kommer det til å handle om du trenger de ekstra språkene OpenAI ser ut til å prioritere mer enn Anthropic.

Oppdatert 25. mai 2024 – Har lagt inn Llama 3 og Gemini 1.5 Flash og Pro. Llama 3 er rett inn på øversteplass i forhold til frie og gratis språkmodeller, og 70B-modellen er også bedre enn gpt-35-turbo og Haiku, og kan på noen områder også måle seg med Sonnet og gpt-4o. Gå gjerne inn på cc.tenkemotoren.no og prøv en gratis kopi av KI i Randabergskolen, hvor alt er drevet med Llama 3 70B.

Oppdatert 24. juli 2024 – Nå er Llama oppdatert til 3.1 og 405B-modellen er også på plass. GPT-4o mini har erstattet GPT-3.5-turbo helt. Claude 3.5 Sonnet er den beste modellen så langt, men Llama 3.1 405B puster den alvorlig i nakken – og Llama er gratis! Test Llama-utgavene på cc.tenkemotoren.no.

Språkmodellene ramler inn

Kommentarer

Legg igjen en kommentar Avbryt svar