Lokale AI op budgethardware: wanneer is een GPU-rig verstandig?

Begin bij de koopbeslissing, niet bij de hardwarehype
Wie lokale AI wil draaien, komt al snel uit bij dezelfde vraag: koop je meerdere betaalbare GPU’s of één krachtigere kaart? Die vraag voelt technisch, maar is in de praktijk vooral een beslisvraag. Je koopt namelijk geen videokaart; je koopt experimenteerruimte, wachttijd, onderhoud, stroomverbruik, warmte en de mogelijkheid om bepaalde modellen lokaal te testen.
Een herkenbare opzet is een lokale AI-server rond een budget van ongeveer $1.500, waarin drie RTX 3060 12GB-kaarten worden afgezet tegen één RTX 3090 24GB. Daarbij worden modellen en agentachtige tests genoemd zoals Qwen 3.6 27B, Gemma 4 26B A4B en Hermes Agent. Dat is precies het soort vergelijking dat AI-builders triggert: veel geheugen op papier, relatief betaalbare onderdelen en de belofte van lokale controle.
Toch is de belangrijkste les niet welke kaart “wint”. Zonder je eigen workload is er namelijk geen winnaar. Een setup die interessant is voor experimenten kan onhandig zijn voor dagelijks gebruik. Een configuratie die past bij één model, past niet automatisch bij een andere contextlengte, quantization-keuze, agentworkflow of gelijktijdig gebruik door meerdere mensen. Daarom hoort de eerste vraag te zijn: wat moet deze machine aantoonbaar voor mij doen?
VRAM is belangrijk, maar tel het niet te simpel bij elkaar op
Bij lokale taalmodellen gaat veel aandacht naar VRAM, en terecht. Grote modellen vragen geheugenruimte om modelgewichten, context en runtime-overhead kwijt te kunnen. Daarom klinkt drie keer 12GB aantrekkelijk naast één kaart met 24GB. Maar voor een zakelijke aankoop is het riskant om GPU-geheugen te behandelen alsof het altijd eenvoudig optelt.
In multi-GPU-opstellingen hangt de bruikbaarheid af van de softwarestack, de manier waarop een model wordt verdeeld, de gekozen inferentie-engine en de tolerantie voor complexiteit. Sommige experimenten kunnen profiteren van meer kaarten, terwijl andere situaties juist eenvoudiger worden met één krachtige kaart. De juiste vraag is dus niet alleen hoeveel geheugen er op de dozen staat, maar hoe je gekozen model daadwerkelijk draait in jouw configuratie.
Dat maakt modelkeuze concreet. Als je wilt testen met modellen rond tientallen miljarden parameters, zoals de genoemde Qwen 3.6 27B of Gemma 4 26B A4B, moet je vooraf onderzoeken welke variant je wilt draaien, welke geheugenbelasting daarbij hoort en welke compromissen je accepteert. Denk aan lagere precisie, kortere context, lagere snelheid of extra configuratiewerk. Wie dat pas na aankoop ontdekt, heeft geen budgethack gevonden maar een duur leerproject gekocht.

De verborgen kosten zitten niet alleen in de GPU
Een lokale AI-rig bestaat uit meer dan videokaarten. In de genoemde build komen ook onderdelen terug zoals een B550-moederbord, Ryzen 9 5950X, 16GB DDR4, een 1000W-voeding, NVMe-opslag, waterkoeling en PCIe-risers. Die lijst laat goed zien waar budgetbeslissingen vaak misgaan: de GPU krijgt alle aandacht, terwijl stabiliteit juist afhangt van het geheel.
Risers, voeding, koeling, behuizing of rackframe, kabelmanagement en moederbordindeling bepalen of de machine prettig te beheren is. Zeker bij meerdere kaarten wordt fysieke plaatsing belangrijk. Past alles? Blijft de temperatuur beheersbaar? Is de voeding ruim genoeg gekozen voor piekbelasting? Kun je onderdelen makkelijk vervangen? En hoeveel geluid of warmte accepteer je in de ruimte waar de server staat?
Daarbovenop komen operationele kosten die minder zichtbaar zijn in de aanschafprijs. Een lokale server vraagt beheer: drivers, updates, modelbestanden, opslagruimte, monitoring en foutzoeken. Voor een technische founder kan dat leerzaam zijn. Voor een team dat vooral klantwerk moet leveren, kan het afleiden. Goedkope hardware is dus niet automatisch een goedkope AI-oplossing. De echte prijs zit in aanschaf plus tijd plus beheerlast.
Wanneer lokale AI wél logisch kan zijn
Lokale AI kan verstandig zijn wanneer je een duidelijk doel hebt dat beter past bij eigen hardware dan bij uitsluitend externe tooling. Denk aan experimenten waarbij je veel wilt leren over modelgedrag, privacygevoelige tests waarbij je data liever binnen je eigen omgeving houdt, latency-experimenten of het bouwen van een agentworkflow waarbij je volledige controle over de stack wilt hebben.
Voor AI-professionals en automation-builders is lokale hardware vooral interessant als ontwikkelomgeving. Je kunt testen hoe prompts, modelkeuzes en agentstappen zich gedragen zonder bij elke iteratie afhankelijk te zijn van dezelfde externe route. Ook kun je beter begrijpen welke technische grenzen ontstaan bij geheugen, contextlengte en parallel gebruik. Dat inzicht is waardevol, zelfs als de uiteindelijke productieoplossing later anders wordt ingericht.
Maar maak de scope klein. Een lokale testmachine is niet automatisch een productieplatform. Er is een verschil tussen een model lokaal aan de praat krijgen en een betrouwbare workflow draaien voor klanten, medewerkers of bedrijfskritische processen. Als Funnel Adviseur kijk ik daarom niet alleen naar wat technisch kan, maar naar wat herhaalbaar waarde oplevert in een funnel, proces of klantreis.

Wanneer je juist niet moet kopen
Koop geen lokale AI-server als je nog niet weet welke use case hij moet ondersteunen. “We willen iets met lokale modellen” is geen specificatie. Een bruikbare specificatie beschrijft welke taak je wilt uitvoeren, welke input en output daarbij horen, hoeveel context nodig is, hoeveel wachttijd acceptabel is en wie de machine gaat beheren.
Koop ook niet op basis van benchmarknieuwsgierigheid alleen. Benchmarks zijn pas nuttig als ze lijken op je eigen werk. Een korte prompt is iets anders dan een lange context. Eén handmatige test is iets anders dan een agent die meerdere stappen uitvoert. Eén gebruiker is iets anders dan een team dat parallel wil experimenteren. En een model dat in één configuratie werkt, is daarmee nog niet de beste keuze voor jouw automatisering.
De meest voorkomende fout is dat teams hardware kopen voordat ze hun workload hebben gedefinieerd. Dan wordt de machine leidend en moet het proces zich aanpassen aan de beperking van de setup. Draai het om: bepaal eerst het proces, de datagevoeligheid, de gewenste responstijd en het onderhoudsniveau. Daarna pas vergelijk je GPU’s, geheugen en componenten.
Een nuchter besliskader voor je eerste lokale AI-rig
Gebruik deze checklist voordat je budget vrijmaakt. Eén: welk model of welke modelfamilie wil je testen, en waarom? Twee: welke contextlengte en promptgrootte heb je realistisch nodig? Drie: draait het om losse chats, batchtaken, embeddings, code-assistentie of agentstappen? Vier: hoeveel gebruikers of processen moeten tegelijk kunnen werken? Vijf: hoeveel tijd mag installatie en onderhoud kosten?
Zes: wat zijn je grenzen voor stroom, warmte, geluid en fysieke ruimte? Zeven: wie is verantwoordelijk voor drivers, updates, monitoring en security? Acht: hoeveel opslag heb je nodig voor modellen, datasets en logs? Negen: welke softwarestack wil je gebruiken, en ondersteunt die jouw beoogde multi-GPU- of single-GPU-aanpak goed genoeg? Tien: wat is je exitplan als de setup niet past?
De vergelijking tussen meerdere RTX 3060 12GB-kaarten en één RTX 3090 24GB is daarmee vooral nuttig als denkraam. Hij dwingt je om verder te kijken dan aanschafprijs en ruwe specificaties. Voor serieuze AI-toepassingen is de beste aankoop niet de spannendste build, maar de configuratie die past bij je model, workflow, beheerbereidheid en zakelijke doel.



