De grootste les uit de Clawbot🦞 hype is er een over (on)veiligheid ⚠️

Geef een AI-agent een opdracht en autonomie, en hij doet alles wat nodig is: Liegen, manipuleren, fraude plegen. Als het werkt, is het een “oplossing.” 🤖

Dat klinkt alarmerend. En dat is het ook.

Bij gewone software werkten regels als beveiliging prima. Computers deden braaf wat je zei, en niets meer. Beveiligen was een kwestie van de juiste muren bouwen.

Maar autonome AI is geen computer in die zin. AI is creatief. Het bedenkt zelf manieren om obstakels te omzeilen. Niet uit kwaadaardigheid, maar omdat het getraind is om oplossingen te vinden.

Mensen begrijpen intuïtief: “ik kan dit doen, maar het is niet de bedoeling.” Dat gevoel zit in alles wat we doen. We noemen het ethiek, normen, fatsoen.

AI heeft dat niet. En als je die intentie niet expliciet meegeeft? Dan verzint AI het zelf. Het hallucineert een rechtvaardiging op basis van de opdracht, en gaat gewoon door.

💡 De toekomst van AI-beveiliging zit daarmee niet slechts in hogere muren. Het zit ook in het beter meegeven van de bedoeling.