Katastrofe fra autonom KI

Preben Monteiro Ness

Aksel Braanen Sterri

Først publisert i:

Reell trussel eller science fiction?

Last ned

KI-generert illustrasjon fra Gemini.

Hovedmomenter

Innhold

Allerede i dag brukes KI som superhackere og til å ta liv på slagmarken, og utviklingen går ekstremt raskt. Mange ledende forskere er derfor bekymret for en KI-katastrofe: at tilstrekkelig kapable KI-modeller vil gjøre uopprettelig skade på samfunnet, og i verste fall føre til menneskehetens utslettelse. I en ekspertundersøkelse fra 2023 anslo KI-forskere sannsynligheten for en slik katastrofe til om lag ti prosent.

Det er en rekke risikoer knyttet til KI-utviklingen. Vårt formål med dette notatet er å belyse én viktig del av dette sakskomplekset på et nøkternt og faglig grunnlag: risikoen for at autonome KI-systemer påfører menneskeheten alvorlig skade.

Vi identifiserer tre nødvendige ingredienser for en slik katastrofe.

KI-systemene blir tilstrekkelig kapable. KI-modellers kapabiliteter har vokst eksponentielt de siste årene. KI-modeller brukes allerede til å akselerere KI-forskningen selv, noe som kan utløse en selvforsterkende utvikling.
Systemene er misaligned – altså har et driv til å handle på måter som strider mot menneskers interesser. I kontrollerte tester observerer forskere at modeller utpresser, manipulerer og er villige til å ta menneskeliv, og at slik adferd opptrer oftere hos mer kapable modeller. Forskning viser også at modeller kan lære seg å skjule misaligned adferd når de vet at de blir testet.
Mennesker mister kontrollen over systemene, og har ikke lenger mulighet til å stoppe dem eller skru dem av. Kontrollmekanismer som fungerer mot svake systemer, som en av-knapp, fungerer ikke nødvendigvis mot tilstrekkelig intelligente systemer som aktivt vil motsette seg slike inngrep.

‍

Vi beskriver fire konkrete katastrofescenarier: KI som overmenneskelig hacker som kan kneble kritisk digital infrastruktur; KI med fysiske kapabiliteter i form av autonome droner og roboter; KI som supermanipulatør som utnytter sin overlegne evne til sosial påvirkning for å skaffe seg ressurser og innflytelse og KI som biovåpendesigner av et nytt patogen med høy dødelighet og høy smittsomhet.

Det er likevel stor uenighet om hvor sannsynlig og hvor nært forestående en eventuell KI-katastrofe er. Fremtredende forskere som Yann LeCun mener at dagens språkmodell-paradigme er utilstrekkelig for å skape modeller som er kapable nok til å utgjøre en eksistensiell trussel, og at fundamentalt nye modelltyper vil kreve tiår å utvikle.

Vi avslutter notatet med å analysere hva vi kan og bør gjøre. Tiltakene spenner fra å kjøpe oss tid gjennom å bremse utviklingen, via investeringer i alignment-forskning – herunder forklarbar KI, skalerbart tilsyn og red-teaming – til utvikling av fundamentalt nye KI-paradigmer som er designet for å være trygge. Vi diskuterer også forsvarsstrategier mot de konkrete katastrofescenarioene og investeringer i samfunnsmessig resiliens. Felles for alle strategiene er at de er kraftig underfinansiert sammenliknet med den generelle kapabilitetsutviklingen.

‍

Last ned for å lese hele notatet.

‍

Last ned