– Dette er ille, sier forfatter Gert Nygårdshaug.
Tirsdag skrev VG om hvordan store teknologiselskaper som Meta og Bloomberg har brukt tekster av norske forfattere til å trene opp sine språkmodeller – som ligger til grunn for samtaleroboter basert på kunstig intelligens.
Det amerikanske tidsskriftet The Atlantic har skrevet en rekke saker om «Books3», som i hovedsak består av piratkopierte e-bøker. Ifølge tidsskriftet skal det omstridte datasettet inneholde 183.000 litterære verker.
Til VG uttaler Eystein Hanssen i Forfatterforbundet at det er «fullstendig uakseptabelt å bruke forfatteres åndsverk uten å ha fått uttrykkelig tillatelse til dette på forhånd».
Annonse
Trenes på nynorsk
Klassekampen har gjort flere søk på norske forfattere i «Books3». Det er først og fremst oversatte titler som dukker opp i basen, men det finnes også norskspråklige utgaver – på både nynorsk og bokmål.
For eksempel sakprosaboka «Etter i saumane» av Kjartan Fløgstad, romanen «Innsirkling» av Carl Frode Tiller og romanen «Prost Gotvins geometri» av Gert Nygårdshaug.
Nygårdshaug forteller at han er svært ukomfortabel med at boka han ga ut i 1998, nå er en del av treningsgrunnlaget til teknologiselskapenes språkmodeller.
– Dette er rett og slett tyveri. Her tilegner man seg forfatterens språk uten å spørre om lov, i dette tilfellet gjelder det også mitt eget språk, og jeg kan ikke skjønne annet enn at det må være i strid med opphavsretten.
Slappe på opphavsrett
Petter Bae Brandtzæg er professor i medievitenskap ved Universitetet i Oslo og forsker på bruk av språkmodeller og kunstig intelligens.
Han har heller ikke mye til overs for at selskapene benytter datasett med piratkopierte e-bøker som treningsgrunnlag.
– Det er ikke bra. Utfordringen med de store språkmodellene er at de enten lages i USA eller i Kina, og dette er land som har et ganske slapt forhold til opphavsrett.
– Hva er det teknologiselskapene ønsker å oppnå ved å trene modellene på norske bøker?
– Det er jo fordi man vil lage globale tjenester, slik at det også finnes samtaleroboter man kan snakke med om norsk litteratur.
– Penga rår
Med de store språkmodellene har man gått fra en snever form for kunstig intelligens til generelle modeller, påpeker Brandtzæg.
«Jeg synes det er ille at man tilegner seg forfatternes språk uten å spørre om lov.»
— Gert Nygårdshaug, forfatter
Annonse
– En modell som Chat GPT kan man spørre om hva som helst, og for at det skal være mulig, må språkmodellene trenes på en rekke ulike sjangere. Alt fra propaganda og falske nyheter til reklame og skjønnlitteratur, sier han.
I USA har flere forfattere, med John Grisham og Jonathan Franzen i spissen, gått til søksmål mot teknologiselskapet Open AI, som utvikler Chat GPT.
– Kan søksmål også være en mulighet for norske forfattere?
– Det er ikke godt å si. Det er penga som rår, og de store teknologiselskapene bruker store summer på å unngå regulering. I personvernspørsmålet har man lent seg mye på EU, kanskje man kan gjøre det i opphavsrettslige spørsmål også.
– Personlige avtrykk
Forfatter Gert Nygårdshaug snakker om viktigheten av at forfatterne kan beskytte sine egne tekster.
– Derfor er det viktig at de norske forfatterorganisasjonene nå følger nøye med på hva teknologiselskapene foretar seg.
– Er det ikke noe positivt ved at de store språkmodellene trenes på norske bøker og ikke bare engelskspråklige?
– Jeg vet ikke hva det skulle være. Blant norske forfattere finnes det et utall særpregede litterære stilarter, og det vil være betenkelig om disse stilartene dukker opp i tekster skrevet ved hjelp av kunstig intelligens. Tekstene vi skriver, er jo personlige avtrykk.