Om det eksisterer noen særegne norske verdier , er de ikke å finne hos Chat GPT.
Påstanden tilhører en forskningsgruppe med det snodige og vanskelig uttalte navnet Norw AI. I tre år har litt flere enn 20 forskere sittet i Gamle Fysikkbygg ved Norges teknisk-naturvitenskapelige universitet (NTNU) med ett mål for øye: en norsk språkmodell som kan erstatte Chat GPT, bygd på norsk språk og – nettopp – «norske verdier».
Det er kommunikasjonsansvarlig Rolf Dyrnes Svendsen som plukker opp telefonen da Klassekampen ringer. Norw AI – som Svendsen uttaler «Norway-ai» – har gjort nokså lite ut av seg til nå. Svendsen forklarer: De er fortsatt i forskningsfasen.
– Amerikanerne holder kortene usedvanlig tett til brystet. Hvis man skal lage nasjonale modeller, må man leite seg fram i ukjent terreng.
Annonse
Bedre enn amerikanerne
Et døgn seinere står Klassekampen foran Idun, Norges sterkeste superdatamaskin av sitt slag, i en kjeller på NTNU. Når lyset er avslått, likner datamaskinene byer sett fra oven om natta.
De står på rekke og rad i rommet, og lener man seg inntil dem, blåser en varm vind – så varm at den brukes til å varme opp lokalene på NTNU.
I flere måneder i strekk har Idun trent Nor GPT, som Norw AIs språkmodell heter, på svære mengder norskspråklig tekst. Den er hentet blant annet fra åpne kilder på internett og Nasjonalbibliotekets tekstbank.
Inne hos superdatamaskinen er lydnivået så høyt at det advares om «støysone» før man går inn. Det er ikke mulig å snakke her nede, men Jon Atle Gulla, som er professor og direktør for Norw AI, forklarte allerede under Arendalsuka hva som er forskningsgruppas ufravikelige mål: å bli enda bedre enn Chat GPT.
– Klarer vi å lage norske språkmodeller som er substansielt bedre enn de amerikanske? Hvis ikke er det ingen vits, sier han.
– Nå forsker vi fram til sommeren 2024. Da blir det tatt en endelig beslutning om hvorvidt modellen vil bli så mye bedre enn Chat GPT at det er verdt å få på plass gode avtaler.
Allerede nå er det dyrt. Det er for tidlig å gi et konkret estimat, men det dreier seg nok om et tresifret antall millioner – eller mer, forteller Gulla. Noen av landets tyngste medie- og næringslivsaktører sponser prosjektet: Schibsted, NRK, Statnett, Telenor, Kongsberg Gruppen og DNV, verdens største selskap innen skipsklassifikasjon.
– Det blir ofte store partnere når man har forskningssentre som går over åtte år. Vi jobber med en språkmodell, men vi har også andre prosjekter, og vi er i tett samarbeid med industrien.
Akkurat nå er det språkmodellen det jobbes mest intensivt med, forteller Gulla.
De har bare fire problemer.
– Det ene er kompetansen. Å utvikle språkmodeller er noe av det aller mest krevende innen kunstig intelligens, men vi har brukt to år på å bygge et lag, så vi er rimelig godt rusta, sier han.
Det andre er regnekraft.
– Vi bruker en kjempestor superdatamaskinklynge til å utvikle modellen. Det er en stor operasjon. Vi stanger helt i taket på kapasitet i Norge, sier han.
Datatrøbbel
Problem nummer tre – og dette begynner virkelig å melde seg for forskerne – er tilgangen på data.
– Så langt har vi brukt åpne datasett og data fra Nasjonalbiblioteket. Men det som finnes på internett, er variabelt i kvalitet, og Nasjonalbibliotekets data er ikke stort nok. Når vi skal lage modeller som skal tas i bruk, må vi ha bedre data, forteller Gulla.
Og hvor går man for å få tak i store mengder tekst av god kvalitet? Til medie- og bokbransjen.
– Vi har hatt samtaler med mediehus, forlag og Forleggerforeningen. Vi vil ikke ende opp i samme situasjon som i USA, sier Gulla.
Der har flere forfattere allerede varslet rettssaker mot Open AI og Meta, selskaper som står bak store språkmodeller. Forfatterne hevder de har brutt med opphavsretten: Når Chat GPT blir bedt om å gi detaljerte sammendrag av konkrete verk, er resymeene så utfyllende at det er vanskelig å se for seg at modellene ikke har «lest» manuset. Uten lov.
For Norw AI er det ikke aktuelt å stjele manus fra internett, forklarer Gulla.
– Det må være et samarbeid med dem som sitter på de gode dataene, sier han.
Gyldendals nei
Men det kan vise seg vanskelig. Spørsmål om opphavsrett og kunstig intelligens har opptatt norske forlag, forfattere og bransjeforeninger i flere år allerede – uten at de har fått på plass noen avtale om kompensasjon.
Og Gyldendal, forlaget Norw AI har vært i løpende kontakt med de siste månedene, har gitt sitt svar.
– De har vært på jakt etter et tekstkorpus, og naturlig nok har de begynt å spørre forlagene. Men vi har gjort det helt klart at vi ikke kan gi dem som mye som et komma uten å klarere dette med forfatterne. Vi har ikke rettigheter til denne typen bruk, sier Einar Ibenholt, direktør for strategi og utvikling i forlaget.
Å mate språkmodellen med manuskripter er antakelig ikke «verdens best idé» uansett, ifølge ham: Det ville vært helt utenfor deres kontroll hva språkmodellen ble brukt til.
– Ingen her på huset skal legge noe inn i slike modeller. Det koker ned til et spørsmål om opphavsrett. Her er forfatterne og forlagene på samme side av elva. At opphavsretten blir respektert, ligger i ryggmargen vår, sier Ibenholt.
Annonse
Det fjerde problemet
Etter hvert har det vist seg at Open AI har flere svin på skogen enn brudd på opphavsretten. Magasinet Time har tidligere avslørt at Open AI brukte kenyanske arbeidere, med en timelønn på under to dollar, til å kategorisere og gi tilbakemelding på Chat GPT, med hensikt å fjerne støtende innhold fra verktøyet.
Og her kommer vi til Jon Atle Gullas fjerde problem – det som melder seg når forskerne etter planen har fått orden på kompetansen, regnekrafta og datasettet.
– En av grunnene til at Chat GPT er så bra, er at de har tilpasset modellen til det mennesker forventer av svar: alignment , heter det. Det krever veldig mange mennesker, sier Gulla.
– Det handler om å gi modellen et menneskelig ansikt. Vi tenker mye på hvordan vi skal få til det, sier Gulla.
Det samme lurer Michael Riegler på. Han er sjefsforsker ved Simulamet, hvor han forsker på kunstig intelligens.
– Utviklingen går så raskt at man må spørre seg om hvorvidt et lite land som Norge i det hele tatt kan være med på den, sier Riegler.
– Chat GPT finnes, og nå utvikles nye modeller som ikke bare har språk, men for eksempel bilder. Det er et teknologisk race, og vi kan ikke konkurrere med de store: Facebook, Google, Open AI. Spørsmålet er om vi heller burde vente.
– Jeg tror ikke det blir bra
Det er ikke bare ved NTNU at man prøver å utvikle en norsk språkmodell for øyeblikket – også prosjektet Nora, Norwegian Artificial Intelligence Research Consortium, jobber med samme mål for øye og i samarbeid med flere norske universiteter.
Skal vi ende opp med to språkmodeller i landet? Eller kanskje enda flere? Det er alt annet enn god ressursbruk, skal vi tro Michael Riegler.
– Det hadde vært lurt med ett nasjonalt prosjekt, hvor også politikk, industrien og organisasjoner var med. Men jeg kan ikke huske at noe universitet i Norge har tatt initiativ til et samarbeid for å lage en felles norsk språkmodell hvor alle er inkludert.
– Hvor realistisk er Nor GPT?
– Jeg tror Norw AI vil lage noe, men jeg tror ikke det blir bra nok til å konkurrere med det som er tilgjengelig. Man trenger enormt med ressurser og datamaskiner. Det er store bedrifter og universiteter i USA som lager sånne modeller, og heller ikke de kan konkurrere med Open AI.
Flytting av dekkstoler
Lars Nyre, professor i mediedesign og teknologiteori ved Universitetet i Bergen, tror ikke bare NorwAI vil ha trøbbel med å skape en egen språkmodell – men at det er beint fram umulig.
Annonse
– Internett og koplingene som eksisterer der, har veldig stor betydning for hva det i det hele tatt er mulig for NTNU å gjøre, sier Nyre.
«Når ungdommen skal fuske på eksamen, kan de i det minste bruke en norsk KI, full av Ibsen-sitater.»
— Lars Nyre, medieforsker
– Forskerne begynner på toppen av et gigantisk fjell av teknologi. Derfor vil det være umulig å utforme et system unikt for Norge.
Lovord om tilpasning til «norske verdier» blir som å omorganisere dekkstolene på et cruiseskip, ifølge Nyre. Reisa blir mer komfortabel, men kursen forandres ikke.
– Skulle man fått Nor GPT til å ta utgangspunkt i noe unikt norsk, måtte man ha innført kinesiske tilstander og stengt ned hele samfunnet for eksterne innflytelser for mange hundre år siden.
Han kan i hvert fall komme på én fordel med en norsk samtalerobot:
– Når ungdommen skal sitte og fuske på eksamen, kan de i det minste bruke en kjempegod norsk KI, full av Ibsen-sitater og mer til, sier Nyre.
Hva med språket?
Også Ingrid Lossius Falkum, førsteamanuensis i filosofi og lingvistikk ved Universitetet i Oslo, er skeptisk.
Man skal ikke undervurdere betydningen av at språkmodellene produserer språk med et helt annet utgangspunkt enn mennesker, sier hun da Klassekampen ringer.
– Når modellene kommuniserer noe på en velformulert og tilsynelatende kunnskapsrik måte, leser vi intensjon inn i det. Men de produserer språk uten intensjon og uten at mottakerens perspektiv tas med i betraktning. Dette er litt enkelt beskrevet et verktøy som gjetter seg fram til neste ord i en setning på bakgrunn av store tekstsamlinger. Dette er det viktig at brukerne er klar over, sier Falkum.
– Det er et åpent spørsmål: Hva vil det bety for barns språkutvikling og kommunikasjonsferdigheter at de stadig oftere vil ha samtaler med en agent som fungerer så grunnleggende annerledes enn det menneskelige samtalepartnere gjør?
Jon Atle Gulla i Norw AI deler en del av bekymringene, men han er overbevist om at den norske samtalerobot vil gjøre godt. En svært liten andel av treningsdataene brukt i Chat GPT er norske.
– Når den likevel blir brukt i massevis av applikasjoner, hvilke konsekvenser har det for det norske språket på sikt? spør han retorisk.
Åpent for satire
Ikke minst er den norske satsingen begrunnet med sikkerhet, forklarer Gulla.
Alt som mates inn i Chat GPT, bevares der. Dermed er det umulig å bruke verktøyet til sensitive opplysninger.
– Det er uaktuelt for Nav at sensitive opplysninger plutselig ligger på en server i Silicon Valley.
– Er det sikkerhet og personvern dere mener når dere snakker om at verktøyet skal gjenspeile og bygge på «norske verdier»?
– Nei, det er noe annet. Når vi trener modellen på mennesker for å innrette den etter det mennesker vil ha den til å gjøre, vil deres verdisett påvirke hvordan språkmodellen virker. Cha GPT har for eksempel store problemer med å diskutere satiriske bøker, fordi det er et veldig sensitivt tema i den amerikanske debatten. Men her er det jo helt uproblematisk med satire, sier Gulla.