
KI-generert illustrasjon fra Gemini.
Hovedmomenter
Allerede i dag brukes KI som superhackere og til å ta liv på slagmarken, og utviklingen går ekstremt raskt. Mange ledende forskere er derfor bekymret for en KI-katastrofe: at tilstrekkelig kapable KI-modeller vil gjøre uopprettelig skade på samfunnet, og i verste fall føre til menneskehetens utslettelse. I en ekspertundersøkelse fra 2023 anslo KI-forskere sannsynligheten for en slik katastrofe til om lag ti prosent.
Det er en rekke risikoer knyttet til KI-utviklingen. Vårt formål med dette notatet er å belyse én viktig del av dette sakskomplekset på et nøkternt og faglig grunnlag: risikoen for at autonome KI-systemer påfører menneskeheten alvorlig skade.
Vi identifiserer tre nødvendige ingredienser for en slik katastrofe.
- KI-systemene blir tilstrekkelig kapable. KI-modellers kapabiliteter har vokst eksponentielt de siste årene. KI-modeller brukes allerede til å akselerere KI-forskningen selv, noe som kan utløse en selvforsterkende utvikling.
- Systemene er misaligned – altså har et driv til å handle på måter som strider mot menneskers interesser. I kontrollerte tester observerer forskere at modeller utpresser, manipulerer og er villige til å ta menneskeliv, og at slik adferd opptrer oftere hos mer kapable modeller. Forskning viser også at modeller kan lære seg å skjule misaligned adferd når de vet at de blir testet.
- Mennesker mister kontrollen over systemene, og har ikke lenger mulighet til å stoppe dem eller skru dem av. Kontrollmekanismer som fungerer mot svake systemer, som en av-knapp, fungerer ikke nødvendigvis mot tilstrekkelig intelligente systemer som aktivt vil motsette seg slike inngrep.
Vi beskriver tre konkrete katastrofescenarier: KI som overmenneskelig hacker som kan kneble kritisk digital infrastruktur; KI med fysiske kapabiliteter i form av autonome droner og roboter; og KI som supermanipulatør som utnytter sin overlegne evne til sosial påvirkning for å skaffe seg ressurser og innflytelse. Alle disse scenariene har forløpere i dagens KI-systemer.
Det er likevel stor uenighet om hvor sannsynlig og hvor nært forestående en eventuell KI-katastrofe er. Fremtredende forskere som Yann LeCun mener at dagens språkmodell-paradigme er utilstrekkelig for å skape modeller som er kapable nok til å utgjøre en eksistensiell trussel, og at fundamentalt nye modelltyper vil kreve tiår å utvikle.
Vi avslutter notatet med å analysere hva vi kan og bør gjøre. Tiltakene spenner fra å kjøpe oss tid gjennom å bremse utviklingen, via investeringer i alignment-forskning – herunder forklarbar KI, skalerbart tilsyn og red-teaming – til utvikling av fundamentalt nye KI-paradigmer som er designet for å være trygge. Vi diskuterer også forsvarsstrategier mot de konkrete katastrofescenarioene og investeringer i samfunnsmessig resiliens. Felles for alle strategiene er at de er kraftig underfinansiert sammenliknet med den generelle kapabilitetsutviklingen.
Last ned for å lese hele notatet.
Mer fra Langsikt

Sikker KI krever mer enn forskning
Norge trenger et statlig organ som kan koordinere KI-sikkerhetsarbeidet.
.png)
Noen må teste KI-modellene Norge gjør seg avhengig av
Norge henger etter i arbeidet med å trygge kunstig intelligens. Vi foreslår et nasjonalt sikkerhetsorgan.

Nå kommer drittifiseringen til KI
ChatGPT gir deg nå spesialtilpasset reklame når du spør om livsråd. Velkommen til drittifiseringen av KI.

Helvetes AI-agenter
AI-agenter skjuler seg bak språk som «assistenter», «copiloter» og «verktøy». Den reelle effekten er å organisere arbeid bort fra mennesker. Verdiskapingen skjer nettopp fordi dette ikke er tydelig for dem som rammes.
Se alle våre publikasjoner her