Dokumentet snakker med deg!

KI er en type digital teknologi. Språkmodeller er en type KI, og språkmodeller jobber med språk. Det tok ikke lang tid før noen skjønte at språkmodeller kunne gjøre det mulig å snakke med mer enn selve språkmodellen. Hvis du ga språkmodellen tilgang til dokumenter (altså tekst), så kunne du prate med dokumentet. Dette kalles «retrieval augmentet generation» (RAG) hvor prateroboten gjør semantiske søk i teksten du har lastet opp og plukker ut det den mener er aktuelle deler av teksten, i forhold til det du skriver om i ledeteksten. Disse tekstblokkene blir så lagt til som en del av ledeteksten din, som så sendes til språkmodellen. Svaret du får blir da tydelig preget av de aktuelle deles av teksten RAG-en la inn i ledeteksten, og forhåpentligvis valgte den ut den rette delen av det du hadde lastet opp. Men husk at du kan jo aldri være helt sikker på at det beste er plukket ut! Den store fordelen med å la språkmodeller jobbe RAG med tekster du har lastet opp er at de bruker denne teksten og ikke «henter» fakta fra modellen (som den jo ikke har).

Det finnes en rekke oppstartsbedrifter som har en slik snakke-med-dokumentet-tjeneste som forretningside. I juli i 2023 begynte Google også å snuse på denne måten å bruke språkmodeller i tjenesten NotebookLM. De har flikket og pusset på den, og nå for noen dager siden annonserte de at tjenesten hadde tatt enda et steg videre. Den er nå en del av tilleggstjenestene i Google Workspace, også for Education.

Hvis du for eksempel laster opp hele NOU-en «En mer praktisk skole«, som er på 236 157 tokens, kan du nå få sammendrag av hele eller deler av utredningen, lage en tidslinje for ulike hendelser og ellers spørre språkmodellen om det du måtte lure på knyttet til innholdet i den. Du får også forslag til spørsmål du kan stille og du kan på toppen av det hele få NotebookLM til å lage en +/- 10 minutters podcast (på engelsk) med to personer som snakker om innholdet i det du har lastet opp – altså en podcast om «En mer praktisk skole». Du kan lagre alle de ulike notatene du gjør i en notatbok knyttet til dokumentet, og notatene inneholder henvisninger til de aktuelle stedene i dokumentet. Det er også mulig å laste opp mange ulike dokumenter til en notatbok, og du kan velge hvilke(t) av dokumentene språkmodellen til en hver tid skal jobbe med.

Alt vel, og egentlig ikke noe nytt. Dette har andre også gjort tidligere, bortsett fra at podcasten NotebookLM kan lage er skummelt god. Den har høy WOW-faktor, hvis du vil vise noen hva KI kan gjøre. Det kan bare lage samtaler på engelsk, men gjerne av norske tekster og resultatet er slett ikke dårlig. Her er det i praksis ikke bare du som kan snakke med dokumentet. Dokumentet kan snakke med deg!

Men… dette er som sagt ikke noe nytt. Det finnes et hav av andre liknende tjenester. Det som skiller Google sin løsning fra de andre er at Google kjører tjenesten på sin egen språkmodell, Gemini 1.5 Pro. Gemini 1.5 Pro kan noe ingen andre kan (enda). Den har et tokens-vindu på 2 millioner tokens. Det betyr i praksis at den ikke trenger RAG, altså søke etter deler av teksten som den legger med i ledeteksten. Gemini kan ha hele teksten i ledeteksten, slik at alle spørsmål eller ting du vil gjøre med teksten alltid vil ha all tekst tilgjengelig.

Og bare for å gi deg en ide om hva dette betyr. «En mer praktisk skole» er 236 157 tokens, så Gemini kan jobbe med hele utredningen når du spør om noe. OpenAI sin gpt-4o-modell kan bare ha 128 000 tokens, altså bare halvparten av dokumentet, tilgjengelig om du vil at gpt-4o skal gjøre noe med teksten. Har du laget en GPT og lastet opp NOU-en, må GPT-en først søke via RAG etter aktuelle tekstblokker fra utredningen som den legger ved i ledeteksten til spørsmålet du har gitt den, og da maks halvparten av teksten fra dokumentet. Google Gemini har hele utredningen tilgjengelig hele tiden.

Det betyr at NotebookLM kan vurdere all tekst i «En mer praktisk skole» når den skal svare på spørsmål, lage sammendrag, konstruere tidslinjer eller lage podcast. Da blir svar den lager mye bedre, fordi språkmodellen har mer kontekst som gir et bedre svar. Skal gpt-4o svare på spørsmål fra utredningen klarer den ikke ha mer kontekst enn den teksten som blir lagt med, og da kommer noe til å mangle. Så hvis du trenger er sammendrag av alle dokumenter i en organisasjon eller jobbe med mange pensumbøker på en gang, så finnes det bare en løsning som kan gjøre det – og den er foreløpig Google sin. Andre løsninger bare later som om de vet hva som står i dokumentene ved å la en RAG hente det den regner med er de viktige delene fra dokumentet. NotebookLM ser på all tekst samtidig på en gang når den svarer. Derfor er kvaliteten på svarene i NotebookLM i en annen liga enn andre RAG-tjenester.

I diskusjonen om hvilken KI som er best kan OpenAI godt vise frem chain of though-superkraften til o1, men Google har nå nettopp vist oss hvilken superkraft det er med et gigantisk tokens-vindu.

Akkurat nå kan du bare laste opp Google Dokumenter, nettsider via URL, PDF- og txt-filer på max 500 000 ord (som er rundt 850 000 tokens), fordi det er dyrt å la den jobbe med maks tokens og fordi det må være plass til andre dokumenter også (regner jeg med). Den leser også bilder som ligger i Google Dokumenter og PDF-er! Jeg tror ikke det er så lenge til du også kan laste opp lyd, bilde og film direkte, fordi Gemini 1.5 Pro er en multimodal modell og med sine 2 millioner tokens kan den «se» en film på to timer når den svarer deg. Jeg har prøvd det i Google sitt AI Studio, og det er akkurat så imponerende som du tror det er!

Oppdatering 27. september 2024
Og som jeg sa – nå kan du også laste opp YouTube-filmer og lydfiler. Men… en fot i bakken. Har testet NotebookLM mer, og kan bekrefte at den er akkurat så skummel som du helst ikke vil at den skal være. Dette gjelder både tekstdelen – og podcasten. Podcasten er farligere enn tekstdelen, fordi samtalen flyter så utrolig godt. Utfordringen er at dette fremdeles er en språkmodell som ikke skjønner teksten. Derfor kommer den til å gjøre alt fra grove feil til små unøyaktigheter, og som kan gjøre at hovedinnholdet blir helt feil – selv om det høres riktig ut og det er sammenheng i det som sies. Den verste episoden var en doktoroppgave som ble lastet opp og der podcasten elegant oppsummerte den nye hovedteorien riktig, men endte opp med å eksemplifisere og konkludere helt motsatt (altså feil) i forhold til teorien. Dette gjorde den, antakeligvis, fordi teoriene den nye hovedteorien motsa var beskrevet i avhandlingen, og da hentet språkmodellen tekst derfra og behandlet det likt som den andre teksten – siden språkmodeller ikke forstår innholdet. Språkmodellen er nok i seg selv også trent på tekster med «gammel» teori og lar seg derfor lettere vippe av pinnen, enn å holde seg strengt til teksten om den nye teorien i avhandlingen. Dette er kanskje vanskelig å beskrive godt hvorfor skjer – men det er veldig viktig å forstå!


Publisert

i

av

Kommentarer

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Dette nettstedet bruker Akismet for å redusere spam. Lær om hvordan dine kommentar-data prosesseres.