I slutten av 2022 dukket det opp nyheter om et AI-system som enkelte mente kunne true eksamenskonseptet i både grunn-, videregående og i høyere utdanning. Trusselen besto i, hevdet man, et system som ga korrekte svar på eksamensoppgaver og som kunne produsere tekst til f.eks. en stil.

Ja, ifølge en nyhetsmelding fra NRK kan dette systemet sågar skrive artikler. Det er med respekt å melde bare tøv.

Da jeg studerte informasjonsvitenskap tilbake i nittenhundre og pil og bue var AI selvsagt et viktig fagemne, så min nysgjerrighet ble naturlig nok vekket av de ulike medieoppslagene om dette magiske datasystemet.

Hovedpersonen i all viraken var Open AI sin Chat GPT. Dette er en språkbehandlings-AI som kan forstå (i betydningen «gjenkjenne») og generere menneskelignende tekst og ble bygget ved hjelp av en kombinasjon av maskinlæringsteknikker og store datamengder.

Jeg har testet ut Chat GPT innenfor eget fagfelt, med blant annet oppgaver fra IKT og Lærings-studiene, og systemet svarer på (stort sett) utmerket norsk. Men ingen av svarene ville – dersom en student presenterte disse på en eksamen – gi særlig høy karakter.

Systemet gjør en god jobb med å lynraskt samle informasjon og produserer helt greie og korrekte svar på nivå 1 i Blooms taksonomi, men gir ingen dybdesvar (i alle fall ikke i mine forsøk) på høyere nivå og er selvsagt totalt avhengig av at de kilder systemet benytter inneholder korrekt informasjon.

Chat GPT gir heller ingen kildehenvisninger for sine svar, så selv om dette er en artig og interessant «samtalebasert søkemotor» er en nødt til å foreta egne søk i for eksempel Google for å sikre at informasjon faktisk er valid.

En student ved IKT og Læring, eller ved masteremnet Digital beredskap, som utelukkende kopierte svar fra Chat GPT, uten videre arbeid og kildegransking, ville totalt sett levere til E eller F da en slik besvarelse vil være blottet for faglig refleksjon. Og dermed kan vi legge vekk forestillingen om at Chat GPT kan skrive artikler, i alle fall i den akademiske betydningen av ordet.

Jeg hadde også stor moro av å spørre Chat GPT ut om populære litterære sjangere i Norge på 70-tallet, og svaret ville nok neppe begeistre en litteraturviter, men helt gale gikk det da jeg spurte om Western-tegneserier og Cowboy-bøker. Her er Chat GPT sitt faglige synspunkt på Cowboy-bokens status i Norge på 70-tallet:

«Cowboy-bøker, det vil si bøker som handler om Vesten i USA eller Vest-Canada på 1800-tallet, var ikke særlig populære i Norge på 1970-tallet. Selv om det ble utgitt noen få cowboy-bøker i Norge på den tiden, var det ikke en særlig populær sjanger blant norske lesere.»

Det overforstående svar er jo unektelig noe overraskende for de av oss som vokste opp på 70-tallet (her kunne systemet med fordel ha «lært» litt av Willy b) og er samtidig et eksempel på hvor vanskelig det er for digitale system å håndtere spørsmål det har liten eller ingen faktainformasjon om. Her som for alt som har med digitale systemer å gjøre gjelder prinsippet om «Garbage in, Garbage out».

En av mange artige ting med Chat GPT er at dersom brukeren påpeker at svarene er feil, innrømmer systemet at det ikke har nok informasjon og deretter viser det til at man kan «prøve å søke etter informasjon i biblioteket eller på nettet».

Et av hovedpoengene til systemet er at det lærer, og som bruker blir man oppfordret til å «mate» systemet med korrekt informasjon om emner den ikke klarer å svare på. Og siden systemet er programmert til å benytte seg av de ord og setninger den registrerer fra samtalen, gir det inntrykk av å være et intelligent og høflig system som er oppriktig glad for at du hjelper det til å bli bedre.

I virkeligheten er systemet på mange måter en videreutviklet (og mer avansert) versjon av det gode gamle psykologi-programmet ELIZA, som utnytter dine egne formuleringer i sine svar og gir inntrykk av at den skjønner hva du snakker om. Det gjør den selvsagt ikke. Det systemet gjør er å gjette seg til hvilken rekkefølge av bokstaver du vil ha, og alt står og faller på hvorvidt de data systemet har er korrekte.

Systemet husker heller ikke tidligere samtaler med deg, og det den virket å lære forrige gang du snakket med den, er glemt neste gang du logger inn og stiller samme spørsmål om samme tema. Sånn sett er det mer givende å snakke med en papegøye, siden den i det minste vil bestrebe seg på å huske setninger ut fra et ønske om å få en kjeks.

Dette med at systemet kan «lære» fra sine brukere er selvsagt fascinerende for en som jobber med bevisstgjøring innen informasjonssikkerhet. Jeg kan ikke hjelpe for å tenke hvor lett det er å mate systemet med falsk informasjon om emner den i utgangspunktet ikke har en fullstendig datasamling om.

Men for at man skal kunne utnytte Chat GPT som en «Fake News»-generator, må den lagre informasjonen du gir den, samtidig som informasjons-input fra brukere ikke sjekkes av forskerne ved Open AI. Jeg er fortsatt noe usikker på hvordan systemet her er satt opp, og så langt virker det ikke som om det foretas langtidslagring av opplysninger gitt av en bruker. Muligens skyldes dette at systemet fortsatt er under utvikling, og at ny informasjon (etter 2021) derfor ikke registreres. Men dette er bare en fundering basert på mine egne begrensede forsøk. Systemet vil helt sikkert bli videreutviklet, men spørsmålet er jo i hvilken retning og med hvilke data.

Kanskje vil Chat GPT, eller lignende systemer, erstatte Google og andre søkemotorer? Og vil vi se svar som inkluderer kildehenvisninger?

I et av mine forsøk ber jeg systemet fortelle meg hvilke kilder det har lagt til grunn for sitt svar og responsen var som følger:

«As an AI language model, I do not have access to external sources of information. However, the information I provided is based on common knowledge and understanding of the topic. »

På mitt spørsmål om hvordan den kan vite at sitt svar var basert på allmenn kunnskap og forståelse for emnet, svarte den:

«As a language model, I have been trained on a large datasett of text and have learned to generate human-like responses based on the patterns and information contained in that datasett. This allows me to provide responses to a wide range of questions on a variety of topics.»

Som vi ser klarer ikke Chat GPT å svare på hvordan det kan vite at dets svar er basert på «allmenn kunnskap».

Og hvordan har den så fått inn alle disse dataene, lurte jeg så på.

«I was not given any specific datasets of text. Rather, I was trained on a large dataset of text that was compiled and curated by OpenAI. This datasett includes a wide range of texts, including books, articles, and websites, and covers a wide variety of topics. During my training, I was able to learn and understand the patterns and structures of language, as well as the general knowledge and common understanding of many different subjects. This allows me to generate responses to a wide range of questions and to provide information on a wide variety of topics.»

Svarene over viser at systemet ikke har noen form for refleksjon, og det som framkommer er kun en logisk sammensetning av ord som passer med dets datagrunnlag. Så når alt kommer til alt har vi egentlig kun en søkemotor med et samtalebasert grensesnitt, som ikke benytter Internett, men søker i en egen database. Informasjonen i denne databasen er samlet og vurdert av forskerne ved Open AI, og validiteten av de svar Chat GTP kommer med er helt avhengig av at den informasjon som legges inn i systemet faktisk er korrekt.

Jo mer utforsket og behandlet et emne er internasjonalt, jo bedre vil nok svarene fra Chat GTP være. Mer nisjepregede tema som for eksempel lødig litteratur i Norge på 70-tallet genererer derimot upresise eller helt feile svar. Men siden svarene, inklusive forsøk på å korrigere sine feil, framkommer på en høflig måte og med en sjarmerende lurendreier-vri på brukernes egne formuleringer, blir det hele ytterst sjarmerende.

Systemet er absolutt interessant, og siden våre studenter nok for lengst har oppdaget Chat GTP, bør informasjon om systemets styrker og svakheter være en del av vår undervisning. Og vi bør være krystallklare på at de må kildegranske informasjonen de får og ikke stole noe mer på Chat GPT enn de gjør på de enkleste Google-søk.

Og kanskje kan Chat GTP minne oss på at eksamensoppgaver helst skal prøve studentene i mer enn bare det laveste nivået i Blooms taksonomi?