Als AI mee bouwt aan AI, wordt verificatie het echte werk

Door Pascal Bouman·7 juni 2026·8 min lezen

AI-team controleert gegenereerde code en testresultaten in een engineeringruimte

Haal AI-zelfverbetering eerst uit de hypehoek

De meest bruikbare vraag voor AI-teams is niet of AI morgen volledig zelfstandig zijn eigen opvolger bouwt. Dat is een groot scenario en geen verstandig startpunt voor operationele besluitvorming. De vraag die vandaag al telt is kleiner en concreter: wat gebeurt er met je engineeringproces wanneer AI-systemen een groeiend deel van het ontwikkelwerk ondersteunen?

Die verschuiving klinkt aantrekkelijk. Meer code, meer experimenten, meer varianten, sneller prototypen en minder handwerk. Maar voor een technisch team ontstaat er direct een tweede werkelijkheid naast die versnelling: alles wat sneller geproduceerd wordt, moet ook sneller begrepen, getest, beoordeeld en verantwoord vrijgegeven worden.

Daarom is het riskant om dit onderwerp alleen te framen als productiviteit. Productiviteit zonder verificatie is geen versnelling, maar een grotere wachtrij met onzeker werk. Wie AI inzet in ontwikkeling krijgt niet alleen extra capaciteit; hij krijgt ook extra controlelast.

Wat verandert er in het werkproces?

In een traditioneel ontwikkelproces zit veel kennis in de stappen die mensen zelf uitvoeren. Een engineer schrijft code, loopt tegen randgevallen aan, maakt keuzes, test impliciet mee en bouwt context op tijdens het werk. Zodra een model meer van dat werk produceert, ontstaat er afstand tussen degene die verantwoordelijk is en de details van de productie.

Die afstand is niet per definitie verkeerd. Teams gebruiken al jaren abstraherende lagen: frameworks, libraries, cloudplatformen, CI/CD en monitoring. Het verschil is dat AI-systemen niet alleen een vaste laag automatiseren, maar voorstellen, code, tests, documentatie en analyses kunnen genereren die per taak verschillen. Dat maakt de output flexibeler, maar ook moeilijker voorspelbaar.

De rol van het team verschuift daardoor van alleen maken naar sturen. Goede prompts en taakbeschrijvingen helpen, maar zijn onvoldoende. Een prompt is geen kwaliteitsgarantie. Een duidelijke instructie kan nog steeds leiden tot incomplete aannames, verborgen afhankelijkheden, foutieve randgevallen of code die lokaal lijkt te werken maar later breekt.

Diagram van een agentische ontwikkelworkflow met test- en reviewstappen

De nieuwe bottleneck is verificatie

Als AI meer produceert dan mensen handmatig kunnen nalopen, wordt verificatie het echte productiesysteem. Dat begint vóór de generatie. Teams moeten scherper specificeren wat het systeem moet doen, welke grenzen gelden, welke data gebruikt mag worden, welke risico’s onacceptabel zijn en wanneer een taak klaar is.

Daarna komt testbaarheid. AI-gegenereerde output moet niet beoordeeld worden op de indruk dat het er goed uitziet, maar op reproduceerbare checks. Denk aan unit tests, integratietests, regressietests, security checks, performance checks en domeinspecifieke evals. Voor AI-producten zelf horen daar ook evaluaties bij op nauwkeurigheid, consistentie, weigergedrag, brongebruik, latency en kosten.

Vervolgens is review nodig. Niet elke wijziging verdient dezelfde menselijke aandacht, maar elke workflow verdient een expliciete reviewregel. Kleine tekstaanpassingen kunnen anders behandeld worden dan code die betalingen, persoonsgegevens, klantcommunicatie of modelbeslissingen raakt. Zonder die risicoklassen wordt alles óf te traag óf te roekeloos.

De kernzin voor teams is simpel: prompten zonder verificatie produceert vooral meer onzekerheid. Prompten mét verificatie kan een schaalbaar proces worden.

Waarom meer output nog geen resultaat is

AI maakt het makkelijk om activiteit te verwarren met vooruitgang. Een agent kan veel bestanden aanpassen. Een coding assistant kan meerdere oplossingen voorstellen. Een model kan tests genereren, documentatie herschrijven en alternatieve implementaties maken. Maar meer artefacten betekenen niet automatisch betere software, lagere risico’s of meer klantwaarde.

Soms is extra output nuttig omdat het team meer opties krijgt. Soms is het juist ruis: meer code om te onderhouden, meer varianten om te beoordelen en meer beslissingen die iemand alsnog moet nemen. In AI-ontwikkeling is dit extra belangrijk, omdat experimenten verleidelijk zijn. Een team kan zich snel rijk rekenen op basis van snelheid, terwijl de echte vraag is of de kwaliteit aantoonbaar stijgt.

Een nuchtere meetlat helpt. Meet niet alleen hoeveel taken door AI zijn aangeraakt, maar hoeveel daarvan veilig naar productie gingen, hoeveel bugs later terugkwamen, hoeveel reviewtijd nodig was, welke tests faalden, hoeveel rollbackmomenten er waren en of de klantimpact zichtbaar verbeterde. Output is een tussenproduct. Resultaat ontstaat pas na gevalideerde werking.

Wat AI-teams nu praktisch moeten inrichten

Begin met eigenaarschap. Voor elke agentische workflow moet duidelijk zijn wie eigenaar is van requirements, wie testdekking bewaakt, wie review uitvoert en wie het releasebesluit neemt. Als niemand eigenaar is, wordt de workflow een black box met een mooi dashboard.

Richt daarna logging in. Niet alleen technische logs, maar ook proceslogs: welke opdracht kreeg het systeem, welke bestanden of bronnen gebruikte het, welke aannames werden gemaakt, welke tests zijn uitgevoerd en welke menselijke goedkeuring is gegeven? Zonder die informatie kun je fouten achteraf nauwelijks reconstrueren.

Maak regressietests verplicht voor processen die herhaald worden. De waarde van AI zit vaak in schaalbaarheid, maar schaalbaarheid zonder regressiecontrole is kwetsbaar. Elke verbetering kan dan een eerdere werking breken. Zeker bij workflows voor codegeneratie, klantcommunicatie, data-analyse of interne beslisondersteuning moet het team kunnen aantonen dat bestaande kwaliteit niet stilletjes verslechtert.

Werk met een rollback-plan. Als AI-gegenereerde output in productie komt, moet vooraf duidelijk zijn hoe je terugdraait. Dat klinkt basaal, maar het voorkomt dat snelheid alleen aan de voorkant wordt georganiseerd. Een volwassen AI-proces organiseert ook herstel.

Checklist voor verificatie van AI-gegenereerde softwarewijzigingen

Recursive self-improvement als managementsignaal

Het scenario waarin AI-systemen steeds meer bijdragen aan hun eigen ontwikkelketen hoeft niet als bewezen eindstation behandeld te worden om toch relevant te zijn. Als managementsignaal is het al nuttig genoeg. Het laat zien dat de verhouding tussen productie en controle verandert.

Voor AI-builders is de les praktisch: bouw niet alleen aan meer autonome uitvoering, maar aan betere verificatiecapaciteit. Dat betekent investeren in evals, testarchitectuur, observability, reviewprotocollen, datagovernance en besluitvorming. De teams die hier volwassen in worden, kunnen AI-output sneller benutten zonder de controle volledig kwijt te raken.

De belangrijkste vraag voor de komende periode is daarom niet hoeveel je AI-systemen kunnen produceren. De betere vraag is: kan jouw team sneller controleren dan je AI-systemen produceren? Als het antwoord nee is, wordt elke productiviteitswinst tijdelijk. Als het antwoord ja is, ontstaat er pas echt ruimte om agentische workflows verantwoord op te schalen.

Veelgestelde vragen

Is autonome zelfverbetering van AI al bewezen?+

Dit artikel claimt dat niet. De praktische insteek is dat AI-systemen steeds meer ontwikkelwerk kunnen ondersteunen, waardoor teams hun verificatie, testprocessen en verantwoordelijkheid beter moeten organiseren.

Waarom is verificatie belangrijker bij AI-gegenereerde code?+

Omdat de verantwoordelijke engineer niet alle keuzes zelf stap voor stap heeft gemaakt. Daardoor moet kwaliteit explicieter worden aangetoond met tests, evals, logging, review en duidelijke releasecriteria.

Is prompt engineering dan minder belangrijk?+

Nee, goede instructies blijven belangrijk. Maar prompt engineering zonder controlemechanisme is onvoldoende. De waarde ontstaat pas wanneer duidelijke prompts gekoppeld zijn aan meetbare acceptatiecriteria.

Welke tests horen bij een AI-ondersteund ontwikkelproces?+

Denk aan unit tests, integratietests, regressietests, security checks, performance checks en domeinspecifieke evals. Voor AI-producten komen daar controles op consistentie, veiligheid, kosten en latency bij.

Hoe voorkom je dat AI alleen maar meer werk creëert?+

Meet niet alleen output, maar ook reviewtijd, foutpercentages, teruggedraaide releases, klantimpact en onderhoudslast. Zo zie je of AI werkelijk resultaat oplevert of vooral extra artefacten produceert.

Moet elke AI-gegenereerde wijziging menselijk worden gereviewd?+

Niet altijd op dezelfde manier. Werk met risicoklassen. Lage-risico taken kunnen lichter worden gecontroleerd, terwijl wijzigingen aan kritieke processen altijd strengere menselijke review verdienen.

Wat is een goede eerste stap voor een AI-team?+

Kies één afgebakende workflow en leg vast wie eigenaar is van requirements, tests, review en release. Voeg daarna logging, regressietests en een rollback-plan toe voordat je opschaalt.

Hoe past dit bij productteams buiten pure softwareontwikkeling?+

Ook productteams die AI gebruiken voor analyse, content, support of interne automatisering krijgen dezelfde uitdaging: gegenereerde output moet controleerbaar, reproduceerbaar en verantwoord inzetbaar zijn.

Wanneer is een agentische workflow volwassen genoeg voor productie?+

Wanneer de workflow duidelijke inputgrenzen heeft, testbare acceptatiecriteria gebruikt, logs bewaart, menselijke goedkeuring regelt waar nodig en een praktisch herstelplan heeft bij fouten.

Wat is de kernvraag voor technische beslissers?+

De kernvraag is of het team sneller en betrouwbaarder kan controleren dan AI-systemen produceren. Zonder die capaciteit verandert versnelling al snel in operationele onzekerheid.

Als AI mee bouwt aan AI, wordt verificatie het echte werk

Haal AI-zelfverbetering eerst uit de hypehoek

Wat verandert er in het werkproces?

De nieuwe bottleneck is verificatie

Waarom meer output nog geen resultaat is

Wat AI-teams nu praktisch moeten inrichten

Recursive self-improvement als managementsignaal

Veelgestelde vragen

Verder lezen

Ook relevant voor jou

Waarom benchmarkwinst niet genoeg is bij nieuwe AI-modellen

Stop met modelrelease-paniek: bouw een release-gate voor GPT- en Claude-keuzes

AI-native engineering: waarom simulatie niet verdwijnt, maar later in het ontwerp komt

Device-native AI: waarom het beste model soms niet in het datacenter draait

Blijf bij met AI zonder zelf elke hype uit te zoeken.

Laatste artikelen