Verden går tom for
åpne, originale og menneskeskapte data. I mellomtiden har det stormet rundt
OpenAI og søksmål dukker opp i det amerikanske rettssystemet.
Det ble omsider
avklart at Sam Altman returnerer som leder for OpenAI forrige uke. Det er
samtidig flere spekulasjoner om hvorfor styret i
OpenAI kunngjorde at de ikke hadde tillitt til Altman i forkant av
oppsigelsen. Så langt har det ikke kommet noen offisielle uttalelser som
forklarer hva som egentlig skjedde.
I mellomtiden er det
grunn til å adressere et annet problem, som både OpenAI og andre AI-selskaper
står overfor. Nemlig begrensningene i åpne data for trening av deres AI-modeller,
spesielt generativ AI som Large Language Models (LLMer).
OpenAI og andre tech-giganter har i stor grad skrapet internett for data. Utviklerne vil måtte se
etter nye kilder og eventuelt få tilgang til lukkede datasett som ulike
bedrifter sitter på.
Situasjonen vil ikke bli bedre med stadig flere deltakere
i kappløpet, som for eksempel Amazon, Anthropic, Google, Meta og andre.
Ønsker tilgang til bedrifters data
OpenAI har nylig
annonsert at selskapet har begynt å trene ChatGPT-5. OpenAI bruker data som brukere deler
med ChatGPT-4. I tillegg ønsker OpenAI å samarbeide med bedrifter for å få tilgang til deres data.
Det er antakelig her den virkelige
gullgruven av data ligger. Verdien til dataene som bedrifter sitter på kommer
antakelig til å øke, eller har allerede økt betydelig, som følge av et større
databehov hos tech-gigantene.
Samtidig pågår det et
opprør på grunn av de dataene som allerede er skrapet fra nettet:
Flere velger nå å
beskytte egne publiseringer mot nye innsamlinger. Per 22. september har 200 av verdens største nettsider blokkert webcrawlers som GPTbots og CCBots. Dette inkluderer blant annet Amazon.com,
NYTimes.com, TheGuardian.com, CNN.com. BBC.co.uk og Bloomberg.com.
Tidligere i høst
klarte The New York Times å få fjernet innhold fra OpenAIs algoritmer som de mente ble urettmessig benyttet fordi innholdet opprinnelig lå bak
betalingsmurer.
Saksøkt av advokatfirma
Den nederlandske regjeringen vurderer et midlertidig forbud for offentlig tjenestemenn
mot bruk av AI-programvare
som ChatGPT eller bildegenererende modeller som Dall-E og Midjourney.
Statssekretær Alexandra van Huffelen for digitale saker har uttrykt at de
nåværende risikoene forbundet med personvern og opphavsrettsbrudd er
overdrevent høye. Antagelsen er ikke nødvendigvis godt begrunnet.
Det har også dukket
opp flere søksmål den siste tiden. Google ble saksøkt av et advokatfirma i
sommer for å ha stjålet
data i «hemmelighet».
OpenAI
er også saksøkt av kjente forfattere og skuespillere som George RR Martin, Sarah Silverman, Jonathan Franzen, John Grisham, Michael Chabon, Jodi Picoult og The Authors Guild. Sistnevnte er USAs største faglige organisasjon for forfattere.
Originality.ai har gjennomgått og publisert en liste med ti
søksmål. Et nytt gruppesøksmål mot OpenAI og Microsoft ble anlagt tidligere i november.
Potensielt
inkluderer de saksøkte alle brukere av ChatGPT som begår opphavsrettsbrudd.
- Vil betale sakskostnadene
For
kort tid siden kunngjorde OpenAI at de ville betale sakskostnader for alle som blir saksøkt.
Den
16. november gikk også Microsoft ut og annonserte at de vil dekke kostnadene for sine kommersielle kunder som betaler
for lisensrettigheter til Azure OpenAI Services. Det tyder på at selskapene har
gjort grundig rettslige vurderinger og er trygge på at de har opptrådt riktig.
Det er få gode
holdepunkter for alle søksmålene, og flere er avvist allerede. Trening av AI,
som LLMer, med opphavsrettslig materiale kan ikke betraktes som en krenkelse. Flere selskaper mener også det.
Algoritmens fremtidige bruk gjenskaper
ikke det originale materialet, men lager noe nytt. OpenAI og andre selskaper
har sikkerhetsmekanismer som gjør at innhold ikke gjenskapes.
Dersom det mot formodning
skulle forekomme gjenskapelser som griper inn i noens rettigheter ved å bruke
selve verktøyet, må dette håndteres i det konkrete tilfellet som andre
opphavsrettsbrudd.
Men selve prosessen med å skape generative AI-verktøy bør
ikke i seg selv innebære noe brudd.
- Hensynet til innovasjon bør gå foran
Hensynet til
innovasjon bør uansett gå foran. EU-Kommisjonen har identifisert at faren for
erstatningsansvar er en av hovedutfordringene som holder tilbake innovasjon på
AI-området.
På samme måte som mennesker lærer av å se på andres verker, må en
maskin derfor kunne gjøre det samme.
Dette standpunktet inntok Sam Altman i et intervju få dager før han ble avsatt.
OpenAI har påberopt seg den amerikanske doktrinen om «fair use»,
som tillater begrenset bruk av opphavsrettslig beskyttet materiale uten å kreve
tillatelse fra rettighetsholderne.
Digitalmarkedsdirektivet
Det er heller ikke
naturlig å si at maskinlæring og andre sub-kategoriene til AI-modellering
innebærer «generering av informasjon» som Digitalmarkedsdirektivet
omtaler i Artikkel 2 (2) og unntaket for forskningsformål.
Direktivet er fra
2019 og sier ingenting om AI. Det er heller ikke gjennomført i norsk rett ennå.
Et angivelig forbud mot nett-crawling, maskinlæring og andre metoder for å
skape Generative AI basert på åpen informasjon passer heller ikke med hverken databasedirektivet
Artikkel 5(a) og Artikkel 7(1) 96/9/EC, eller opphavsrettsdirektivet Artikkel 2
av 2001/29/EC.
Samtidig er det ikke
sikkert at materiale som skapes med generativ AI alltid kan oppnå vern i seg selv. En domstol i Washington D.C. kom til en slik konklusjon tidligere i høst.
- Ubegrunnet frykt
Det er likevel viktig å ta i betraktning at skapere av innhold bruker generativ
AI som et verktøy i kombinasjon med egeninnsats. Det er vanskelig å se at
innsatsen ikke skal belønnes. Skapere bør derfor omfavne den nye teknologien, og
det er en ubegrunnet frykt å anta at det vil være til skade for forfattere,
kunstnere og andre skapende yrker at man nå blir utstyrt med disse verktøyene.
Nytteverdien til
AI-verktøyene må heller ikke overdrives.
I en serie med tre podcast-episoder,
lagde redaksjonen i NPR's Planet Money en kort podcast-episode ved bruk av ChatGPT
og andre Generative AI-verktøy. Redaksjonen fikk blant annet skreddersydde versjoner
av AI-løsningene direkte fra OpenAI. Til tross for dette, tok det flerfoldige
timer og egeninnsats for å skape en kort episode som hadde begrenset kvalitet.
Til tross for de
mange utfordringene og kontroversene som omgir generative AI og datainnsamling,
er det viktig å understreke at vi befinner oss i en tid med betydelig
teknologisk fremgang.
Innovasjon og utvikling av disse teknologiene bør
prioriteres, selv om det innebærer å navigere i komplekse juridiske og etiske
landskap. Vi må huske at AI er et verktøy, og verdien vil til syvende og sist
bli bestemt av hvordan vi bruker det. Vi må derfor fortsette å utforske og
utvikle, samtidig som vi tar hensyn til utfordringene vi møter.