Notat
|
13.03.2026

Katastrofe fra autonom KI

Først publisert i:

Reell trussel eller science fiction?

Last ned

KI-generert illustrasjon fra Gemini.

Hovedmomenter

1

2

3

4

Innhold

Allerede i dag brukes KI som superhackere og til å ta liv på slagmarken, og utviklingen går ekstremt raskt. Mange ledende forskere er derfor bekymret for en KI-katastrofe: at tilstrekkelig kapable KI-modeller vil gjøre uopprettelig skade på samfunnet, og i verste fall føre til menneskehetens utslettelse. I en ekspertundersøkelse fra 2023 anslo KI-forskere sannsynligheten for en slik katastrofe til om lag ti prosent. 

Det er en rekke risikoer knyttet til KI-utviklingen. Vårt formål med dette notatet er å belyse én viktig del av dette sakskomplekset på et nøkternt og faglig grunnlag: risikoen for at autonome KI-systemer påfører menneskeheten alvorlig skade.

Vi identifiserer tre nødvendige ingredienser for en slik katastrofe. 

  1. KI-systemene blir tilstrekkelig kapable. KI-modellers kapabiliteter har vokst eksponentielt de siste årene. KI-modeller brukes allerede til å akselerere KI-forskningen selv, noe som kan utløse en selvforsterkende utvikling.
  2. Systemene er misaligned – altså har et driv til å handle på måter som strider mot menneskers interesser. I kontrollerte tester observerer forskere at modeller utpresser, manipulerer og er villige til å ta menneskeliv, og at slik adferd opptrer oftere hos mer kapable modeller. Forskning viser også at modeller kan lære seg å skjule misaligned adferd når de vet at de blir testet.
  3. Mennesker mister kontrollen over systemene, og har ikke lenger mulighet til å stoppe dem eller skru dem av. Kontrollmekanismer som fungerer mot svake systemer, som en av-knapp, fungerer ikke nødvendigvis mot tilstrekkelig intelligente systemer som aktivt vil motsette seg slike inngrep.

Vi beskriver tre konkrete katastrofescenarier: KI som overmenneskelig hacker som kan kneble kritisk digital infrastruktur; KI med fysiske kapabiliteter i form av autonome droner og roboter; og KI som supermanipulatør som utnytter sin overlegne evne til sosial påvirkning for å skaffe seg ressurser og innflytelse. Alle disse scenariene har forløpere i dagens KI-systemer.

Det er likevel stor uenighet om hvor sannsynlig og hvor nært forestående en eventuell KI-katastrofe er. Fremtredende forskere som Yann LeCun mener at dagens språkmodell-paradigme er utilstrekkelig for å skape modeller som er kapable nok til å utgjøre en eksistensiell trussel, og at fundamentalt nye modelltyper vil kreve tiår å utvikle.

Vi avslutter notatet med å analysere hva vi kan og bør gjøre. Tiltakene spenner fra å kjøpe oss tid gjennom å bremse utviklingen, via investeringer i alignment-forskning – herunder forklarbar KI, skalerbart tilsyn og red-teaming – til utvikling av fundamentalt nye KI-paradigmer som er designet for å være trygge. Vi diskuterer også forsvarsstrategier mot de konkrete katastrofescenarioene og investeringer i samfunnsmessig resiliens. Felles for alle strategiene er at de er kraftig underfinansiert sammenliknet med den generelle kapabilitetsutviklingen.

Last ned for å lese hele notatet.

Last ned
Vi bruker cookies for å gi deg en bedre brukeropplevelse. Ved å trykke "Aksepter", samtykker du til vår bruk av cookies. Les mer i vår Personvernerklæring.