Waarom betere AI-agents soms minder tools nodig hebben

Door Pascal Bouman·21 juni 2026·7 min lezen

Productteam bekijkt een vereenvoudigde AI-agent workflow met minder tools.

De valkuil: elke agent-fout oplossen met nóg een tool

Veel AI-agent projecten beginnen logisch. Een team bouwt een agent voor een afgebakende taak, ziet dat de output nog niet betrouwbaar genoeg is en voegt een extra tool toe. Daarna komt er memory bij, vervolgens toegang tot een extra databron, daarna een koppeling met een intern systeem en daarna een fallback-route. Op papier lijkt de agent steeds capabeler. In de praktijk wordt het gedrag vaak juist moeilijker te voorspellen.

Dat patroon is herkenbaar voor AI-teams die van prototype naar productie willen. In een demo werkt een agent indrukwekkend, omdat de context gecontroleerd is. Zodra echte gebruikers, rommelige data en wisselende uitzonderingen erbij komen, blijkt dat elke extra mogelijkheid ook een extra faalpad is. De agent moet niet alleen weten wat hij kan doen, maar vooral wanneer hij iets níet moet doen.

De interessante les uit recente discussies rond agent-ontwerp is daarom niet dat je altijd radicaal moet schrappen. De les is dat tools geen gratis vermogen zijn. Elke tool die je toevoegt, wordt een onderhoudsverplichting. Als niemand kan uitleggen waarom een tool bestaat, wanneer hij gebruikt moet worden, hoe succes wordt gemeten en wie eigenaar is van de foutafhandeling, bouw je waarschijnlijk vooral complexiteit rond je model.

Wat een AI-harness eigenlijk is

Bij Funnel Adviseur gebruiken we het woord harness voor de laag rond het AI-model. Het model is belangrijk, maar het werkt nooit in isolatie. Daaromheen zitten prompts, tooldefinities, toegangsregels, contextvensters, routing, evaluaties, logging, permissies, escalatieregels en beheerafspraken. Die combinatie bepaalt of een agent in een echte bedrijfsomgeving bruikbaar wordt.

Een betere onderliggende modelversie lost die laag niet automatisch op. Sterker nog: wanneer modelgedrag verandert, kan een bestaande agent-flow ineens anders reageren op dezelfde toolbeschrijving of dezelfde context. Ook bedrijfsdata verandert. Productinformatie wordt aangepast, CRM-velden krijgen een andere betekenis, API-output wijzigt, rechtenstructuren veranderen en gebruikers gaan andere vragen stellen zodra ze ontdekken wat de agent kan.

Daarom is agentkwaliteit niet alleen een bouwvraag, maar vooral een onderhoudsvraag. De eerste versie van je agent bewijst dat iets technisch kan. De volgende fase bewijst of je team het beheersbaar kan houden. Dat is een ander vak: minder spektakel, meer discipline.

Waarom minder tools betrouwbaarder kan zijn

Een agent met twintig tools lijkt veelzijdig, maar moet bij elke taak kiezen uit twintig mogelijke routes. Sommige tools overlappen. Andere tools hebben vergelijkbare namen. Weer andere tools leveren data terug in een vorm die niet precies past bij de vervolgstap. Daardoor groeit de kans dat de agent een plausibele maar verkeerde route kiest.

Minder tools kan betrouwbaarder zijn wanneer je daarmee de keuzeruimte versmalt tot routes die goed beschreven, getest en gemeten zijn. Dat is geen bezuiniging op ambitie. Het is productdenken. Je maakt de agent niet beter door hem alles te laten proberen, maar door hem de juiste dingen consequent goed te laten doen.

Belangrijk is de nuance: minder is niet automatisch beter. Een agent die een taak echt moet uitvoeren, heeft soms juist toegang nodig tot een specifiek systeem. Schrappen wordt pas waardevol wanneer tools redundant, risicovol, slecht onderhouden of nauwelijks aantoonbaar nuttig zijn. Het doel is dus niet een zo kaal mogelijke agent, maar een agent waarvan elke mogelijkheid verdedigbaar is.

Audit-tabel waarin AI-agent tools worden beoordeeld op noodzaak en risico.

De onderhoudsvraag vóór je een tool toevoegt

Voordat je een nieuwe tool toevoegt, hoort het team een paar praktische vragen te beantwoorden. Welke taak wordt hiermee beter uitgevoerd? Hoe meten we dat? Wat is de verwachte foutreductie? Welke gebruikerssituatie rechtvaardigt deze extra route? Als het antwoord vooral is dat de agent ‘dan meer kan’, is dat meestal te vaag.

Daarna komt eigenaarschap. Wie onderhoudt de koppeling? Wie controleert permissies? Wie ziet het wanneer de API-output verandert? Wie beslist dat een tool tijdelijk uit moet? Wie analyseert mislukte runs? In veel agent-pilots zijn dit impliciete taken. Zolang het experiment klein is, lukt dat nog. Bij productiegebruik wordt impliciet beheer een risico.

Ook verwijdercriteria horen vooraf op tafel. Een tool moet niet eeuwig blijven bestaan omdat hij ooit handig leek. Spreek af wanneer een tool opnieuw beoordeeld wordt. Bijvoorbeeld na een modelupgrade, na een wijziging in databronnen, na een reeks fouten of na een periode waarin de tool wel vaak gekozen wordt maar weinig bijdraagt aan taakvoltooiing.

Een praktisch besliskader voor AI-teams

Begin met een tool-inventarisatie. Zet alle tools van je agent in één overzicht en label ze als essentieel, onzeker, redundant of risicovol. Essentieel betekent: zonder deze tool kan de agent zijn kerntaak niet uitvoeren. Onzeker betekent: mogelijk nuttig, maar de bijdrage is niet bewezen. Redundant betekent: de functie overlapt met een andere route. Risicovol betekent: de tool kan schade veroorzaken bij verkeerd gebruik, bijvoorbeeld door data te wijzigen of berichten te versturen.

Meet vervolgens niet alleen of een tool gebruikt wordt, maar of hij helpt. Veel gebruik is geen bewijs van waarde. Een agent kan een tool vaak kiezen omdat de beschrijving breed is, niet omdat de tool de taak beter afrondt. Kijk daarom naar taakvoltooiing, foutreductie, herstelacties, escalaties en menselijke correcties. Juist die signalen laten zien of de harness slimmer wordt of alleen drukker.

Plan daarna een vaste agent-maintenance review. Niet als vrijblijvende nabespreking, maar als onderdeel van productbeheer. Bespreek welke tools blijven, welke scherper beschreven moeten worden, welke permissies aangepast moeten worden en welke routes verwijderd kunnen worden. Voor teams die meerdere AI-flows beheren, is dit net zo belangrijk als backlog grooming of security review.

Onderhoudskalender voor periodieke review van AI-agents en hun tools.

Van pilot naar productie: bouw onderhoudbare autonomie

De stap naar productie vraagt een andere mentaliteit dan de pilotfase. In de pilot wil je bewijzen dat de agent iets kan. In productie wil je bewijzen dat de agent betrouwbaar genoeg blijft wanneer omstandigheden veranderen. Dat betekent dat je autonomie niet maximaliseert, maar begrenst tot wat je kunt meten en onderhouden.

Een goede eerste productieflow is daarom vaak smal. Kies één taak met duidelijke input, duidelijke output en duidelijke escalatie. Laat de agent daarin aantoonbaar presteren voordat je hem bredere toegang geeft. Dat voelt minder indrukwekkend dan een alleskunner, maar het is veel bruikbaarder voor teams die verantwoordelijkheid dragen voor klantcontact, salesprocessen, support of interne operatie.

Voor Funnel Adviseur is dit de kern: AI-automatisering moet niet alleen slim lijken, maar beheerbaar waarde leveren. De volwassen agentstrategie gaat minder over maximale vrijheid en meer over onderhoudbare autonomie. Bouw dus niet de agent met de meeste tools. Bouw de agent waarvan je precies begrijpt waarom elke tool bestaat, hoe hij faalt en wanneer hij weer mag verdwijnen.

Veelgestelde vragen

Zijn meer tools altijd slecht voor een AI-agent?+

Nee. Meer tools zijn niet per definitie slecht. Ze worden een probleem wanneer ze overlappen, onduidelijk beschreven zijn, niet gemeten worden of geen duidelijke eigenaar hebben voor onderhoud en foutafhandeling.

Wanneer moet je een tool uit een agent verwijderen?+

Verwijder of pauzeer een tool wanneer hij weinig bijdraagt aan taakvoltooiing, veel fouten veroorzaakt, redundant is met andere routes of niet meer past bij actuele data en processen.

Wat betekent harness bij AI-agents?+

De harness is de complete laag rond het model: prompts, tools, context, routing, permissies, evaluaties, logging en beheerafspraken die samen bepalen hoe betrouwbaar de agent werkt.

Waarom kan een betere modelversie toch agentproblemen veroorzaken?+

Een nieuw model kan anders reageren op instructies, toolbeschrijvingen en context. Daardoor kan een bestaande agent-flow opnieuw getest moeten worden, ook als de onderliggende modelkwaliteit stijgt.

Hoe meet je of een agent-tool waarde toevoegt?+

Kijk niet alleen naar gebruiksfrequentie. Meet taakvoltooiing, foutreductie, menselijke correcties, escalaties, herhaalvragen en situaties waarin de tool juist tot verkeerde acties leidt.

Wat is datadrift bij AI-agents?+

Datadrift betekent dat de data of betekenis van data verandert. Denk aan aangepaste CRM-velden, nieuwe productinformatie, gewijzigde API-output of andere gebruikersvragen dan tijdens de pilotfase.

Wie moet eigenaar zijn van agent-onderhoud?+

Er moet minimaal een functionele eigenaar en een technische eigenaar zijn. De functionele eigenaar bewaakt taakwaarde en risico; de technische eigenaar bewaakt koppelingen, permissies en monitoring.

Hoe vaak moet je een AI-agent reviewen?+

Dat hangt af van gebruik en risico. Voor productieflows is een periodieke review verstandig, plus extra controle na modelupdates, proceswijzigingen, dataveranderingen of opvallende fouten.

Is een smalle agent beter dan een brede alleskunner?+

Voor productiegebruik vaak wel. Een smalle agent met duidelijke taak, grenzen en escalatie is makkelijker te testen, te onderhouden en verantwoordelijk in te zetten dan een brede agent met onduidelijke routes.

Hoe start je met het verbeteren van een bestaande agent?+

Maak eerst een inventarisatie van alle tools en label ze als essentieel, onzeker, redundant of risicovol. Meet daarna per tool of hij aantoonbaar helpt of vooral complexiteit toevoegt.

Waarom betere AI-agents soms minder tools nodig hebben

De valkuil: elke agent-fout oplossen met nóg een tool

Wat een AI-harness eigenlijk is

Waarom minder tools betrouwbaarder kan zijn

De onderhoudsvraag vóór je een tool toevoegt

Een praktisch besliskader voor AI-teams

Van pilot naar productie: bouw onderhoudbare autonomie

Veelgestelde vragen

Verder lezen

Ook relevant voor jou

Waarom benchmarkwinst niet genoeg is bij nieuwe AI-modellen

Stop met modelrelease-paniek: bouw een release-gate voor GPT- en Claude-keuzes

AI-native engineering: waarom simulatie niet verdwijnt, maar later in het ontwerp komt

Device-native AI: waarom het beste model soms niet in het datacenter draait

Blijf bij met AI zonder zelf elke hype uit te zoeken.

Laatste artikelen