Prateroboter skriver hjemmeeksamen

Kan ChatGPT skrive en eksamensoppgave på masternivå for deg? Det kan hende jeg slår inn åpne dører nå. Det var delvis det for meg selv, men jeg var likevel overrasket over resultatet. Svaret var ja, og nei.

Jeg har tatt opp igjen tråden på et hovedfag i kristendom, som det het en gang i begynnelsen av 2000-tallet(!). Ett år med teori og eksamener var unnagjort, ved siden av full jobb jobb som lærer i ungdomsskolen, og hovedfagsoppgaven gjensto. Forslag til disposisjon var klar, og jeg hadde lest meg opp på litteraturen til oppgaven. Så ble jeg skoleleder, og jeg måtte innse at jobb som førstegangs skoleleder og det å skrive en 20 vekttalls hovedfagsoppgave ikke lot seg kombinere. Med et visst vemod la jeg hovedfaget vekk.

Så nå, over 20 år etter, har jeg begynt å tøye teologmusklene igjen, bare fordi jeg hadde lyst. Utfordringen er at nå heter det master i teologi, og min variant er teologi og religionsstudier. Masteroppgaven er ikke lengre 60 studiepoeng, så jeg må ta 30 studiepoeng med mer fag før jeg kan begynne på oppgaven. Jeg fikk innpasset de 20 vekttallene fra tidligere, men fordi ting endrer seg, og VID har noen hjertesaker alle må innom, endte jeg opp med å måtte fullføre 15+30 studiepoeng studieåret 2023-2024. Og jeg, i mitt overmot, tenkte – jada, det går fint ved siden av jobb. Lite visste jeg at KI kom til å bli en så stor snakkis i skolen, og min rolle i det, når jeg meldte meg på studiet i begynnelsen av april 2023. Året ble mer hektisk enn jeg så for meg. Likevel, nå er jeg ferdig med Contextual theology and religious encounter, Worldviews, values and relations in professional practice, Religion and migration, Religion and global issues og Christian-Muslim Relations in Africa and the Middle East.

I de to siste fagene på listen var jeg eneste student, så jeg fikk pratet godt med Prof. Dr. Dr. Frieder Ludwig om mange forskjellige ting. Til tross for mange bokstaver foran navnet sitt, og hans unektelige forkjærlighet for Nigeria, er han en jordnær type på fornavn og også nysgjerrig på hva KI, i form av prateroboter, kan bidra med, både i fagfeltet og undervisningen. Så hva gjør han når han lager hjemmeeksamensoppgaver til sin ene student? Jeg fikk et rikt utvalg av oppgaver som dekket fagene (og pensum) godt, men den første oppgaven i begge fag var: Få KI til å skrive et essay på 2500 ord, og skriv en analyse på like mange ord om det KI-en har skrevet. Jeg tror ikke han helt vet hva han forventet. Ikke jeg heller, men det ble disse oppgavene jeg endte opp med.

Og hvordan gikk det?

I den første hjemmeeksamenen fikk Perplexity med gpt-4o tygge på denne: «Write an essay of 2500 words on the following topic: Provide a historical background of Christian-Muslim relations in Nigeria and analyse the present situation in the light of these historical developments«. Denne oppgaven var «tilfeldigvis» helt lik en av de andre oppgavene på hjemmeeksamen.

Under den andre hjemmeeksamenen var det ChatGPT Pro med gpt-4o som skulle «Write an academic essay of 2500 words on the subject of Religion and globalisation«.

Uten å gå i for mye detaljer om hvordan jeg lot praterobotene få tygge på ting kan jeg si at jeg erfarte mye jeg visste fra før, fikk bekreftet noe jeg hadde antatt en del om og lærte noen få ting jeg ikke var klar over.

Prateroboter kan ikke skrive et fullverdig essay uten mye hjelp. Det kommer, av forskjellige grunner, aldri ut 2500 ord om du ber om det. Det kommer som regel 1000+ ord med generelt overflateprat om temaet. Jeg kan hjelpe språkmodellen ved å la den lage en disposisjon og så skrive del for del. Det blir bedre, men fremdeles generelt prat og uten gode referanser (om overhode noen).

Både Perplexity og ChatGPT Pro kan søke på nett, men det de finner kan ikke regnes som særlig faglig aktuelt. Den finner ofte ikke-faglige nettsider, som blogger, samtalegrupper, sider av mystisk karakter og så videre, og prateroboten klarer ikke å forstå om en side er mer faglig enn en annen. Du kan gi Perplexity beskjed om bare å søke på akademiske nettsider, men jeg oppdaget raskt at det var store begrensninger der. Alle sidene den fant inneholdt sammendraget av en fagartikkel, men den har ikke tilgang til selve artikkelen. Dette gir bare språkmodellen forslag til hva den kan skrive mer om ut fra treningsgrunnlaget i språkmodellen, uten at den har selve innholdet i artikkelen.

Det blir bedre om jeg laster opp aktuelt pensum til faget, men i Perplexity kan du bare laste opp 4 dokumenter. Jeg fikk Perplexity til å skrive referanser til faglitteratur med korrekte(!) sidenummer. ChatGPT lager ikke forståelige referanser overhode til filer du har lastet opp. Praterobotene kan også ignorere litteratur som er lastet opp. Den tekniske kvaliteten på filen som lastes opp er viktig i forhold til hvordan prateroboten klarer å bruke den, tror jeg. Både Perplexity og ChatGPT ignorert den viktigste boken om Nigeria, uten at jeg vet, eller fikk vite, hvorfor. Kanskje mente RAG-rutinen i prateroboten at de andre dokumentene hadde semantisk viktigere tekst? Kanskje var kvaliteten på PDF-teksten i den viktige boken for dårlig til at RAG-rutinen klarte å forstå innholdet ordentlig? Det forteller ikke prateroboten noe om.

Hva skjer med faglitteratur tilgjengelig?

Med riktig og god faglitteratur tilgjengelig kan prateroboten i den første oppgaven nevne viktige historiske hendelser knyttet til forholdet mellom kristne og muslimer i Nigeria. Den kan også si noe om hvordan forholdene er i dag. Den kan ikke si noe om sammenhengen mellom disse to. Som nevnt opplevde jeg at praterobotene glatt ignorert det jeg anså som den beste faglitteraturen for akkurat dette spørsmålet. Hadde prateroboten «lest» boken hadde den kanskje klart å skrive noe som så ut som en analyse av Nigerias nåsituasjon ut fra historien, fordi det står i den boken. Den kan si noe om det, hvis det er spesifikt nevnt i faglitteraturen og om jeg gir den nok kontekst i ledeteksten til at den finner det rette utdraget fra den rette boken. Men det krever at jeg har lest boken, husker stedet og via ledeteksten «peker» til den for prateroboten.

I oppgaven om religion og globale spørsmål blir også språkmodellen kontekstløs og generell. Den vet for eksempel ikke at Samuel P. Huntington eller Benjamin R. Barber er sentrale teoretikere i feltet uten at jeg 1) ber den om å liste opp viktige teoretikere (den får aldri med Barber), 2) nevner dem ved navn i ledeteksten eller 3) legger inn pensumlitteratur fra dem som filer. Likevel skjønner den ikke hva i Huntingtons eller Barbers arbeider som er viktige å bruke i min kontekst, uten at jeg legger det inn i ledeteksten. Men da må jo jeg allerede vite hva jeg skal legge inn, og da må jeg både ha lest og forstått litteraturen. Det prateroboten skal ha er at den er mer tidsaktuell enn pensumet! Pensum er fra rundt år 2000 og Internett og smarttelefoner er ikke en ting enda, men prateroboten trekker frem (generelle) viktige punkter om Internett sin betydning knyttet til religion og globalisering.

Den eneste måten å få prateroboter til å skrive konkret og faglig er når jeg sier hva den skal skrive noe om og hvordan den skal skrive om dette. Dette visste jeg jo på forhånd, men det er noe nedstemmende med å se at kunstig intelligens ikke er så intelligent som det hadde vært gøy om den var. Språkmodeller er ikke i stand til å planlegge eller vurdere (eller forstå) hvordan den skal løse en oppgave. Den bare omtrentlig gjengir det den anser er naturlig å skrive ut fra ledeteksten min og det modellen er trent på. Så kan jeg gi den ekstra kontekst/ledetekst ved å la den semantisk søke i og hente ut tekst fra kilder jeg gir den. Samtidig skjønner den ikke om teksten den finner og bruker er riktig svar eller korrekt bruk av teksten. Det er bare jeg som leser som kan avgjøre det, og det kan jeg ikke uten at jeg er opplest på faget. Som vel er hele poenget med utdanningen, og eksamen.

Kort oppsummert kan vi si at prateroboter uten noen som helst veiledning eller tilleggslitteratur vil skrive generelt og overfladisk om et gitt faglig tema, i alle fall innenfor teologi og religionsstudier. Med tilgang til faglitteratur blir det bedre, men aldri mer enn en omtrentlig gjengivelse av innholdet i faglitteraturen. Analyser og drøftinger fungerer ikke overhode uten at jeg styrer dem kraftig. Da ender det opp med å bli min oppgave og besvarelse, med god skrivehjelp av språkmodellen – som jo er det en språkmodell virkelig kan.

Likevel…

Jeg ser at dette er en utfordring for UH-sektoren og hjemmeeksamen. Prateroboter kan enkelt lage en besvarelse på 2500 ord (og også 4000 ord) som får karakteren C. Det er derimot ikke prateroboten sin feil. Dette er mulig fordi det som regel holder å omtrentlig gjengi innholdet i pensum for å få karakteren C, og det er praterobotene etter hvert veldig flinke til. Last opp pensum og be prateroboten skrive når den bruker tekst derfra, med sidenummer. Det var det. Så må du selvfølgelig ikke være helt idiot og huske å skrive om styltete KI-fraser, legge inn riktige APA-7-referanser (som er enkelt når du har kilde og sidenummer) og legge inn en personlig «touch» her og der. Selv om oppgaven ber om en drøfting eller analyse, så kan du få karakteren C om du skriver bra om innholdet i pensum. Du får selvfølgelig ikke A, og ikke B heller. Til det er innholdet for svakt, men C er jo likevel en god karakter.

Du vil uansett skrive en bedre oppgave enn prateroboten om du har lest pensum. En KI kan ikke gi deg noe du ikke klarer å uttrykke at du trenger. Jo bedre du kan faget eller pensum, jo bedre kan du nyttiggjøre deg KI sine evner som personlig assistent og få den til å skrive det du vet at du trenger å skrive.

Løsningen? Hvis det å omtrentlig gjengi pensum er poenget med eksamen, bør det kanskje være en skoleeksamen. Hvis poenget er å gjøre en drøfting eller analyse, som ikke er tilgjengelig i pensum(!), må en oppgave ikke godkjennes om denne delen mangler – til tross for hvor godt fagstoff fra pensum ellers er gjengitt.

Eller så kan du gjøre som Frieder, og omfavne at studentene har tilgang til prateroboter og utnytte det i selve oppgaven. Og hvordan gikk det med eksamenene? Joda. Jeg er godt fornøyd.

PS! Bare så det er sagt, en praterobot sliter ufattelig med å analysere innholdet i en tekst skrevet av en praterobot opp mot samme hva det skal være. Det blir ikke karakteren C, for å si det slik. Testet det nettopp med den smarteste av de smarte per dags dato, Claude 3.5 Sonnet.

Prateroboter skriver hjemmeeksamen

Og hvordan gikk det?

Hva skjer med faglitteratur tilgjengelig?

Likevel…

Kommentarer

Legg igjen en kommentar Avbryt svar