AI-agents bouwen is geen modelkeuze meer, maar een governance-keuze

Door Pascal Bouman·27 juni 2026·8 min lezen

AI-team ontwerpt governance voor agents met evals en system of record

De agent-hype mist vaak het echte knelpunt

Veel gesprekken over AI-agents beginnen bij de verkeerde vraag: welk model is het slimst, snelst of meest indrukwekkend? Dat is begrijpelijk, want modelkwaliteit is zichtbaar. Een agent die goed redeneert, code schrijft of een taakketen afmaakt, voelt meteen als vooruitgang. Maar voor teams die AI in echte processen willen gebruiken, zit het knelpunt meestal ergens anders. Niet bij de demo, maar bij de vraag wie beslist, wie controleert, wat wordt vastgelegd en welk systeem uiteindelijk gelijk heeft.

Zodra een AI-systeem niet alleen tekst genereert, maar ook acties voorbereidt of uitvoert, verandert de ontwerpopgave. Een chatbot die een antwoord suggereert is iets anders dan een agent die een ticket sluit, een offerte aanpast, een pull request maakt, klantdata verrijkt of prioriteiten in een planning wijzigt. In dat tweede geval bouw je niet alleen een interface met een model. Je bouwt een beslislaag in je operatie.

Daarom is agentontwikkeling geen zuivere modelkeuze meer. Het is een governance-keuze. Je moet vooraf bepalen welke beslissingen bij mensen blijven, welke beslissingen door een agent mogen worden voorbereid, welke acties automatisch mogen gebeuren en welke acties altijd een review nodig hebben. Als je dat niet expliciet ontwerpt, ontstaat de governance alsnog, maar dan impliciet: in prompts, workarounds, losse scripts en gewoontes van gebruikers.

Van agency naar beslissingsrechten

Discussies over AI-agency, modelgedrag en zelfs bewustzijn kunnen snel abstract worden. Voor productteams is de praktische vertaling kleiner en nuttiger: als een systeem handelingsruimte krijgt, moet die ruimte begrensd zijn. Agency is dan niet een filosofisch label, maar een ontwerpvariabele. Mag de agent alleen waarnemen? Mag hij opties voorstellen? Mag hij een actie klaarzetten? Mag hij zelfstandig uitvoeren binnen vooraf bepaalde grenzen?

Een bruikbare manier om dit te structureren is werken met autonomielevels. Level nul is analyse: het systeem vat samen, classificeert of zoekt informatie, maar verandert niets. Level één is voorstelvorming: de agent maakt een conceptactie die een mens accepteert of wijzigt. Level twee is uitvoering met toestemming: de agent kan handelen nadat een mens expliciet akkoord geeft. Level drie is uitvoering binnen grenzen: de agent mag bepaalde acties zelfstandig doen, zolang meetbare voorwaarden kloppen. Level vier, volledige autonomie in kritieke processen, hoort zelden het startpunt te zijn.

Die indeling dwingt teams om concreet te worden. Een agent die leads verrijkt, heeft andere rechten nodig dan een agent die contractvoorwaarden aanpast. Een agent die codevoorstellen doet, vraagt andere review dan een agent die automatisch deployt. De governancevraag is dus niet: vertrouwen we AI? De vraag is: voor welke taak, met welke impact, onder welke voorwaarden en met welk herstelpad laten we dit systeem handelen?

Drie niveaus van autonomie voor AI-agents

Geleidelijke verschuiving van macht is een operationeel risico

Een nuttig risicomodel voor AI is niet het spectaculaire scenario waarin systemen van de ene op de andere dag alles overnemen. Voor organisaties is het realistischere risico vaak geleidelijker. Een team automatiseert eerst samenvattingen, daarna prioritering, daarna conceptbesluiten, daarna uitvoering van standaardgevallen. Elke stap lijkt logisch. Elke stap bespaart tijd. Maar na een aantal stappen kan blijken dat mensen niet langer begrijpen waarom bepaalde beslissingen worden genomen of waar ze nog kunnen ingrijpen.

Dat is geen reden om agents te vermijden. Het is wel een reden om delegatie zichtbaar te maken. Welke beslissingen verdwijnen uit menselijke review? Welke uitzonderingen worden nog gezien? Welke feedback krijgt het model of de workflow terug? Welke dashboards tonen fouten, onzekerheid en overruling? En wie heeft de bevoegdheid om een agent tijdelijk terug te zetten naar een lager autonomielevel?

Veel AI-projecten meten vooral outputkwaliteit: is het antwoord juist, is de code bruikbaar, is de samenvatting netjes? Voor agents is dat te beperkt. Je moet ook meten wat er met het proces gebeurt. Worden mensen afhankelijk van automatisch voorgestelde keuzes? Worden alternatieven minder vaak bekeken? Worden afwijkende gevallen sneller weggefilterd? Als beslissingsmacht langzaam verschuift, zie je dat niet altijd in één foutmelding. Je ziet het in veranderend gedrag rondom het systeem.

Evals zijn geen formaliteit, maar je stuurmechanisme

Bij klassieke software kun je veel gedrag vooraf specificeren. Bij AI-agents is gedrag vaak contextafhankelijker. Daarom zijn evals geen nice-to-have en ook geen academische bijzaak. Ze zijn het stuurmechanisme waarmee je bepaalt of een agent binnen acceptabele grenzen werkt. Zonder evals blijft agentkwaliteit een verzameling anekdotes: deze demo ging goed, die klantcase ging fout, deze prompt voelt beter.

Goede evals beginnen bij taken, niet bij algemene modelindrukken. Een agent die supporttickets routeert, moet worden getest op routeringsnauwkeurigheid, onzekerheidsherkenning, escalatiegedrag en omgang met ontbrekende informatie. Een agent die code wijzigt, moet worden getest op regressies, securitygevoelige patronen, leesbaarheid en aansluiting op bestaande conventies. Een agent die commerciële opvolging voorbereidt, moet worden getest op feitelijke juistheid, toon, toestemming en bron van klantinformatie.

Belangrijk is ook dat evals onderhoudbaar zijn. Een eenmalige testset bij de start van het project is onvoldoende. Processen veranderen, producten veranderen, gebruikers veranderen en modellen veranderen. Teams hebben daarom een ritme nodig: nieuwe foutgevallen toevoegen, grensgevallen bewaren, regressies volgen en evaluaties koppelen aan releases. Een agent zonder eval-ritme is moeilijk bestuurbaar, ook als de eerste versie goed lijkt te werken.

Architectuurdiagram met system of record voor AI-agents

Onderhoudbare code en een duidelijk system of record

Agents worden vaak gepresenteerd als laag bovenop bestaande systemen. In de praktijk raken ze juist de kern van je architectuur. Ze lezen uit CRM, ERP, ticketsystemen, documentatie, codebases, spreadsheets en chatgeschiedenis. Ze schrijven soms ook terug. Dan wordt de vraag belangrijk: welk systeem is leidend? Waar staat de waarheid? En mag een agent eigen geheugen of afgeleide data gebruiken alsof die gelijkwaardig is aan formele bedrijfsdata?

Het system of record moet expliciet blijven. Als het CRM leidend is voor klantstatus, mag een agent-memory die status niet stilletjes overschrijven. Als het ticketsysteem leidend is voor supporthistorie, moet een samenvatting herleidbaar blijven naar het originele ticket. Als de codebase leidend is voor productgedrag, moet agentgegenereerde code door dezelfde review-, test- en releasepaden als menselijke code. Anders ontstaat een schaduwlaag waarin niemand precies weet wat waar is.

Daarbij hoort onderhoudbare code. Snelle agentprototypes groeien makkelijk uit tot ondoorzichtige ketens van prompts, tools, callbacks en tijdelijke uitzonderingen. Dat werkt zolang één bouwer alles begrijpt. Het faalt zodra meerdere teams erop moeten vertrouwen. Behandel agentworkflows daarom als productiesoftware: versiebeheer, logging, duidelijke interfaces, foutafhandeling, toegangsrechten, testdata en documentatie. Een agent is geen magische collega buiten je architectuur. Het is software die beslissingen beïnvloedt.

Sovereignty en infrastructuur zijn afhankelijkheidsvragen

Naast procesgovernance speelt ook afhankelijkheid van de stack. AI-teams maken keuzes voor modellen, inferenceproviders, cloudomgevingen, GPU-infrastructuur, vector databases, observability en agentframeworks. Sommige keuzes zijn later makkelijk te vervangen. Andere keuzes kruipen diep in je product, je dataflows en je kostenstructuur. Het is verstandig om dat vooraf als architectuurvraag te behandelen, niet pas als contractvraag wanneer het systeem al kritisch is.

Voor Europese teams kan digitale soevereiniteit een relevante lens zijn, zonder dat je er een slogan van hoeft te maken. De concrete vragen zijn nuchter: waar wordt data verwerkt, welke logging is beschikbaar, welke contractuele afspraken zijn nodig, welke componenten kun je auditen, en wat gebeurt er als een model, API of infrastructuurlaag verandert? Dat zijn geen abstracte beleidsvragen meer zodra een agent operationele taken uitvoert.

Ook infrastructuurafhankelijkheid verdient aandacht. Als optimalisaties, kernels, tooling en hardware-ecosystemen steeds nauwer met elkaar verweven raken, kan een technische keuze meer lock-in opleveren dan op het eerste gezicht zichtbaar is. Dat betekent niet dat teams alles zelf moeten bouwen. Het betekent wel dat ze moeten weten welke onderdelen vervangbaar zijn, welke prestaties afhankelijk zijn van specifieke leveranciers en welke migratiekosten acceptabel zijn.

Een praktisch kader voor controleerbare agentinzet

Een houdbare aanpak begint met een simpele beslismatrix. Zet per agenttaak minimaal zes kolommen naast elkaar: taaktype, autonomielevel, eval-dekking, menselijke review, impact op het system of record en afhankelijkheid van leveranciers of infrastructuur. Die matrix hoeft niet perfect te zijn. Hij moet vooral zichtbaar maken waar je bewust kiest en waar je nog op aannames draait.

Voor laag-risicotaken kan een agent veel vrijheid krijgen, mits logging en herstel eenvoudig zijn. Voor taken met klantimpact, juridische impact, financiële impact of productierisico hoort de lat hoger te liggen. Dan wil je strengere evals, expliciete review, duidelijke escalatie en een helder rollback-pad. De truc is niet om overal maximale controle op te zetten. De truc is om controle te laten passen bij de schade die een fout kan veroorzaken.

Mijn nuchtere advies: begin niet met de vraag hoe autonoom je agent kan zijn. Begin met de vraag welke beslissing je verantwoord kunt delegeren. Daarna ontwerp je het model, de tools, de evals, de menselijke review en het system of record daaromheen. Dan bouw je geen losse AI-demo, maar een controleerbare agentlaag die in je organisatie past.

Voor teams die AI koppelen aan commerciële of operationele processen, sluit dit direct aan op bredere automatisering. Wie een agent inzet in leadopvolging, support, planning of klantcommunicatie, moet dezelfde discipline toepassen als bij andere bedrijfskritische workflows. Meer automatisering zonder eigenaarschap levert geen schaalbaarheid op, maar extra onduidelijkheid. Meer automatisering mét governance kan wel degelijk ruimte creëren, omdat mensen dan weten wanneer ze kunnen vertrouwen, wanneer ze moeten controleren en wanneer ze moeten ingrijpen.

Veelgestelde vragen

Waarom is AI-agentontwikkeling een governance-keuze?+

Omdat een agent niet alleen output produceert, maar vaak ook acties voorbereidt of uitvoert. Daardoor moet een team bepalen welke beslissingen gedelegeerd worden, hoe controle plaatsvindt en wie verantwoordelijk blijft.

Wat is een goed startpunt voor het bepalen van agent-autonomie?+

Begin met taakimpact. Laat een agent eerst analyseren of voorstellen doen voordat hij zelfstandig handelt. Verhoog autonomie pas wanneer evals, logging, review en herstelpaden aantoonbaar op orde zijn.

Welke evals heeft een AI-agent nodig?+

Dat hangt af van de taak. Denk aan juistheid, onzekerheidsherkenning, escalatiegedrag, regressies, security, brongebruik, toon en procesimpact. Algemene modelbenchmarks zijn hiervoor meestal niet specifiek genoeg.

Waarom is een system of record belangrijk bij agents?+

Agents lezen en schrijven vaak in meerdere systemen. Zonder duidelijk system of record ontstaat verwarring over welke data leidend is, vooral bij klantstatus, tickets, contractinformatie, planning of code.

Mag een agent eigen geheugen gebruiken?+

Dat kan, maar agent-memory moet niet ongemerkt dezelfde status krijgen als formele bedrijfsdata. Maak duidelijk wat tijdelijk geheugen is, wat afgeleide informatie is en welk systeem officieel leidend blijft.

Hoe voorkom je dat agents beslissingsmacht ongemerkt overnemen?+

Maak delegatie zichtbaar. Leg autonomielevels vast, monitor welke beslissingen uit menselijke review verdwijnen, registreer overruling en zorg dat een agent snel naar een lager bevoegdheidsniveau kan worden teruggezet.

Is menselijke review altijd nodig bij AI-agents?+

Niet altijd. Bij laag-risicotaken kan automatische uitvoering acceptabel zijn. Bij taken met klantimpact, financiële gevolgen, juridische risico’s of productierisico hoort menselijke review vaak expliciet in het ontwerp.

Wat betekent onderhoudbare code bij agentworkflows?+

Het betekent dat prompts, tools, interfaces, logging, tests, foutafhandeling en rechtenbeheer net zo serieus worden behandeld als andere productiesoftware. Een agentprototype moet niet uitgroeien tot onbegrijpelijke proceskritische spaghetti.

Hoe kijk je naar vendor lock-in bij AI-agents?+

Breng per component in kaart wat vervangbaar is. Let op model-API’s, tooling, dataopslag, GPU-afhankelijkheid, observability en contractvoorwaarden. Niet alles hoeft portable te zijn, maar kritieke afhankelijkheden moeten bekend zijn.

Wat is een praktische beslismatrix voor AI-teams?+

Gebruik per taak minimaal deze velden: taaktype, autonomielevel, eval-dekking, menselijke review, system-of-record-impact en vendor lock-in-impact. Zo zie je waar het ontwerp nog te veel op aannames leunt.

Wanneer is een AI-agent klaar voor productie?+

Een agent is pas productiewaardig wanneer de taak duidelijk begrensd is, evals structureel draaien, logging beschikbaar is, menselijke escalatie werkt, rechten correct zijn ingericht en het system of record niet ter discussie staat.

Hoe past dit bij B2B-automatisering?+

In B2B-processen raken agents vaak leadopvolging, support, planning of klantdata. Juist daar moet automatisering controleerbaar zijn, zodat snelheid niet ten koste gaat van eigenaarschap en betrouwbaarheid.

AI-agents bouwen is geen modelkeuze meer, maar een governance-keuze

De agent-hype mist vaak het echte knelpunt

Van agency naar beslissingsrechten

Geleidelijke verschuiving van macht is een operationeel risico

Evals zijn geen formaliteit, maar je stuurmechanisme

Onderhoudbare code en een duidelijk system of record

Sovereignty en infrastructuur zijn afhankelijkheidsvragen

Een praktisch kader voor controleerbare agentinzet

Veelgestelde vragen

Verder lezen

Ook relevant voor jou

Waarom benchmarkwinst niet genoeg is bij nieuwe AI-modellen

Stop met modelrelease-paniek: bouw een release-gate voor GPT- en Claude-keuzes

AI-native engineering: waarom simulatie niet verdwijnt, maar later in het ontwerp komt

Device-native AI: waarom het beste model soms niet in het datacenter draait

Blijf bij met AI zonder zelf elke hype uit te zoeken.

Laatste artikelen