Valgets kvaler (aka Randabergmodellen har en fordel)

De som kjører KI i Randabergskolen-løsningen har en fordel de fleste andre ikke har. Vi kan nemlig velge hvilke språkmodeller vi skal bruke i praterobotene våre. De fleste kjører nok OpenAI sin gpt-4o-mini, men nå vil jeg si høyt at dere kanskje bør løfte blikket noe. Det er ikke sikkert det dere ser der er bedre, men det er flere ting der som dere bør tenke på.

Det er i dag allerede utfordrende å velge språkmodeller i prateroboter de store aktørene tilbyr. Skal du bruke gpt-4o-mini, gpt-4o, o1, o3-mini eller o3-mini-high? De gjør ulike ting bedre enn de andre, og dette var bare OpenAI sine modeller (per dags dato). Anthropic har tre varianter av Claude med Haiku, Sonnet og Opus. Google har Gemini 1.5 Pro og Gemini 2.0 Flash, og snart Gemini 2.0 Pro og Gemini 2.0 Flash Thinking. Mens Meta har et hav av ulike varianter av Llama 3. For ikke å snakke om alle de nye språkmodellene som dukker opp, for eksempel DeepSeek, Qwen, Mistral, Microsoft Phi, Mistral, Grok og så videre.

Så langt i norsk skole ender valget opp med to styrende spørsmål: 1) Skriver den godt nok norsk og 2) hvor billig er den? Frem til nå har svaret vært enkelt og de fleste har landet på OpenAI gpt-4o-mini. Den er rimelig bra og billig. Men det er ikke til å stikke under en stol at gpt-4o-mini ikke alltid skriver like gode svar, og heller ikke like god norsk. Språkrådet kikket nylig på språket i ChatGPT, som bruker gpt-4o, og de hadde ikke overraskende noen innvendinger. Likevel, gpt-4o er veldig mye bedre enn gpt-4o-mini, som de fleste i skolenorge bruker, og den er veldig mye dyrere enn gpt-4o-mini.

Jeg har faktisk regnet litt på hvor dyre ulike språkmodeller er i forhold til hverandre, med utgangspunkt i gpt-4o-mini. Jeg har sett på tallene for KI i Randabergskolen og CC Tenkemotoren og ser at forholdet mellom tokens input og output er i forholdet 80/20. Dette høres kanskje rart ut, fordi du vanligvis får lengre svar enn du selv skriver. Dette gir mening når du husker at svarene du får blir en del av det du sender til språkmodellen i neste input, så det du sender blir raskt mye mer enn det språkmodellen skriver til deg. Så i løpet av en måned på KI i Randabergskolen er det sendt og mottatt rundt 27 600 000 tokens. Det betyr at det er sendt 22 080 000 tokens til språkmodellen og den har svart 5 520 000 tokens. Med $0,15 for å lese 1M tokens og $0,6 for å skrive 1M token blir prisen på en måned med gpt-4o-mini rundt kr 68. Da er det enkelt å regne ut hva det koster med de ulike modellene, og forholdet ser slik ut med utgangspunkt i gpt-4o-mini.

gpt-4o-mini	gpt-4o	gpt-4.5	o3-mini	Claude 3.5 Haiku	Claude 3.7 Sonnet	Gemini 2.0 Flash
1,0	16,7	388,9	7,3	5,9	22,2	0,7

Så hvis du har en utgift på rundt kr 100 i måneden med gpt-4o-mini vil det koste kr 1 670 hvis du bytter ut alt med gpt-4o. Sonnet koster kr 2 220, og Gemini 2.0 Flash koster kr 70. Og o3-mini koster kr 730, men o3-mini er ikke nødvendigvis bedre til å skrive ting enn de andre modellene. Den er en modell som «resonerer» og har styrker knyttet til koding og matematikk, mer enn tekst. Og den nye gpt-4.5 koster kr 38 890!

Men… ikke se deg blind på pris nå! Hvis du spør meg, så er Sonnet over 22 ganger bedre enn gpt-4o-mini. Sonnet er også mye bedre enn gpt-4o. Min opplevelse er at gpt må jobbes med for å få den til å gjøre det du ønsker i en praterobot. Sonnet virkelig skjønner hva du vil og den skriver utrolig gode tekster og har en helt annen levende tone og stil når den skriver. Det er ikke skår på ulike «benchmarks» som forteller deg om en språkmodell er god eller ikke. Det er det den gjør for deg, i forhold til det du trenger den til, som betyr noe. Jeg trenger en språkmodell som er god til å snakke med elever, som forstår tekster og ledetekster godt, som skriver godt norsk og som er en rik og levende forteller. Claude 3.7 Sonnet leverer i en egen liga som språkmodell på disse områdene, og jeg faller flatt for det den får til. Claude 3.7 Sonnet har lenge vært den språkmodellen jeg tyr til når jeg skal lage gode ledetekster, eller trenger en praterobot som forstår det jeg skriver til den og som skriver utrolige gode svar tilbake.

Det er også en del prateroboter som ikke fungerer uten en smart og dyr språkmodell. Ingrid Johansen, 14 år, er bortkastet med noe annet enn Claude 3.7 Sonnet. Det samme gjelder alle prateroboter eller tekstverksted som må være gode på språk og forstå kontekst og tankerekker i ledetekster. Hvis elevene skal få en dugende tilbakemelding på en tekst, er den mer konstruktiv og kontekstuell med en dyr språkmodell enn en billig. Det er bare slik det er. De dyre er dyrere fordi de er større og har bedre forståelse for språk. Det er selvfølgelig en diskusjon om hva som er godt nok i forhold til hva det koster, men jeg tar meg selv oftere og oftere i å synes at elevene får mindre enn de fortjener når vi leder dem til gpt-4o-mini og tilsvarende.

Nå funderer jeg på om de kr 100 i måneden lærere og elever i Randaberg bruker av KI-aktivitet med gpt-4o-mini heller kan være kr 2 220 i måneden med Claude 3.7 Sonnet, og at de får en ufattelig mye bedre tjeneste enn de gjør i dag. Vi bruker mye mer enn kr 24 420 i året på mer bortkastede ting enn KI i Randabergskolen, for å si det slik. Likevel tester jeg Gemini 2.0 Flash for å se om den er bedre til mitt formål enn gpt-4o-mini, bare fordi den er billigere og fordi det er lurt å prøve ut nye ting. Det er én utfordring med språkmodellene fra Google, og det er at de har større begrensninger i hvor mange tokens per minute de kan levere enn OpenAI (og Anthropic). Dette er ikke et problem for mindre installasjoner som Randabergskolen, men CC Tenkemotoren kan slite med begrensningene der. AI Engine støtter heller ikke strømming med Gemini, men det tror jeg blir ordnet om ikke så lenge.

Men hva gjør jeg om jeg vil gjøre noe annet enn OpenAI? Det er enkelt. Du kan like lett skaffe deg en API-nøkkel fra Anthropic til Claude-modellene, som du gjorde med OpenAI. Det er mer stress å få tak i betalte API-nøkler til Google Gemini, men du får det til hvis du bruker tid på det. Eller du kan få tilgang til alt som kryper og går av språkmodeller gjennom tjenesten OpenRouter, som AI Engine også støtter – med streaming. OpenRouter har også en enhetlig prismodell som gjør at du betaler inn kreditt til OpenRouter og så får du bruke ulike modeller alt etter hva de tar per million tokens lest og skrevet. Antallet kall i sekundet du kan gjøre til OpenRouter bestemmes ut fra kreditten du til enhver tid har.

Bruker jeg noen gang gpt-4o-mini? Nei. Så hvorfor må elevene det?

Valgets kvaler (aka Randabergmodellen har en fordel)

Kommentarer

Legg igjen en kommentar Avbryt svar