Claude Opus 4.7: wat de benchmarks echt zeggen voor productie

Door Pascal Bouman··9 min lezen
Nederlandse B2B-professional analyseert AI-modelprestatiedata op groot scherm in modern kantoor in Amsterdam.

Adaptief denken: innovatie of bezuiniging?

Een model dat zelf beslist hoeveel het nadenkt over jouw taak. Dat klinkt elegant. Maar Claude Opus 4.7 laat precies zien waar dat elegant-klinken ophoudt en de pijn begint.

Opus 4.7 introduceert 'adaptive thinking': als het model een taak als eenvoudig inschat, besteedt het er minder rekenkracht aan. Op papier efficiënt. In de praktijk betekent het dat je controle verliest over de diepgang van redenering. De maker van de Simple Bench-benchmark — een test vol ogenschijnlijk eenvoudige vragen die juist common sense vereisen — zag Opus 4.7 slechter scoren dan zijn voorganger 4.6. Niet omdat het model zwakker is, maar omdat het de vragen onderschat...

Een AMD senior AI-director constateerde al vóór de release van 4.7 dat Claude 4.6 'generfed' was: het aantal tekens dat aan denken werd besteed daalde met driekwart ten opzichte van eerdere versies. Meer bail-outs, minder doordenken. De hoofdontwikkelaar van Claude Code bevestigde dit: medium effort is nu de standaard. Wie serieuze agentic workflows bouwt, moet dat actief aanpassen.

Benchmarks: welke zeggen iets, welke niet?

De benchmark-situatie rond Opus 4.7 is representatief voor een breder probleem in de sector: er bestaat geen universele maatstaf voor modelkwaliteit. Het systeem kaart van Anthropic erkent dit zelf op pagina 43 — benchmark supply aan de frontier blijft een bottleneck.

BenchmarkOpus 4.6Opus 4.7ConcurrentOpmerking
Kantoorwerk (knowledge work)Beste beschikbaarGemini 3.1 ProOpus 4.7 wint op vanilla office tasks
Vibe Coding (web app bouwen)Beste op snelheid + prestatieGPT-5.4Niet op kosten
Agentic search / web browsingBeterSlechterGPT-5.4Regressie t.o.v. 4.6
OCR / document parsingVerbeterd t.o.v. 4.6Gemini 3 FlashFlash is 10× goedkoper én beter
Cybersecurity-kwetsbaarhedenBeterBewust afgezwaktMythos PreviewAnthropic begrenst dit bewust
ARC-AGI2 (abstract patroonherkenning)SlechterGPT-5.4 ProNiet-taalkundige redenering
Bron: Anthropic system card Opus 4.7 (april 2026) + externe benchmark-evaluaties Val's AI, Simple Bench.

De tabel maakt één ding meteen duidelijk: Opus 4.7 is geen model dat overal wint. Het is een model dat op specifieke taken — gestructureerd kantoorwerk, code genereren, complexe documentanalyse — een sterke keuze is. Op andere taken, zoals OCR of agentic web-browsing, loop je tegen een prijsmuur aan. Gemini 3 Flash is meer dan tien keer goedkoper en presteert beter op documentparsing. Dat is geen detail, dat is een architectuurkeuze.

Abstracte visualisatie van benchmark-grafieken als gloeiende teal databalken in donkere studioruimte.

Het compute-probleem: Anthropic's strategische Achilleshiel

Claude en Gemini hebben hun marktaandeel in generatieve AI-websiteverkeer het afgelopen jaar elk ruwweg verviervoudigd. Voor het eerst sinds de lancering van ChatGPT in november 2022 dreigt het marktaandeel van OpenAI onder de vijftig procent te zakken. Dat is een indrukwekkende verschuiving.

Maar succes heeft een keerzijde. Volgens een intern OpenAI-memo dat uitlekte naar The Verge gelooft OpenAI dat Anthropic een strategische fout heeft gemaakt: te weinig compute ingekocht voor de vraag die ze hebben opgebouwd. De gevolgen zijn al merkbaar — throttling, verminderde beschikbaarheid, een minder betrouwbare gebruikerservaring. De hoofdontwikkelaar van Codex (OpenAI) formuleerde het compact: 'Codex is compute-efficiënt, altijd beschikbaar, nooit down.'

The whole point of Claude was that it was really good at inferring your intent and could work out what you want and now you have to be extremely precise just to get it to do anything.
Gebruikerscommentaar op AI Explained, YouTube (april 2026)

Dit citaat raakt de kern van wat er speelt. Opus 4.7 is niet per se minder capabel — het is systemisch anders geconfigureerd om compute te sparen. Voor een B2B-team dat agentic workflows bouwt, is dat een materieel verschil. Je betaalt premium-priJS voor een model dat zichzelf begrenst.

Twee Nederlandse tech-professionals bespreken AI-model keuze in vergaderruimte in Utrecht.

Mythos Preview: hype of horizon?

Anthropic heeft een bijzondere positie bereikt: het bedrijf is op één maatstaf de eerste AI-startup die een biljoen dollar valuation passeert — nog vóór een beursgang. Dat cijfer is grotendeels gebaseerd op Claude Mythos Preview, een model dat alleen voor geselecteerde insiders beschikbaar is, waaronder de Amerikaanse overheid en grote techbedrijven.

Eén statistiek rondom Mythos kreeg veel aandacht: interne Anthropic-ingenieurs rapporteerden via een interne enquête dat Mythos hun output met een factor vier versnelde. Klinkt revolutionair. Maar de methodologie verdient kritisch lezen...

  • De vraag luidde: 'Hoeveel meer output produceerde je de afgelopen week vergeleken met geen model-toegang?' — niet: hoeveel tijd bespaarde je, niet: was die output beter.
  • De enquête was opt-in op basis van interesse, geen aselecte steekproef. Degenen die Mythos het meest hadden gebruikt en de meest geschikte taken hadden, reageerden disproportioneel.
  • Anthropic's CEO spreekt publiekelijk over 50% werkloosheid onder kenniswerkers en het imminente einde van alle ziekten. Het contrast met een informele interne enquête als bewijs is groot.

Dat is geen aanval op Mythos als model — er zijn sterke indicaties dat het uitzonderlijk presteert. Maar de communicatie rondom Mythos illustreert een patroon in de sector dat Daniel Kahneman 'substitutie' zou noemen: een moeilijk te beantwoorden vraag (is dit model klaar voor recursieve zelfverbetering?) wordt vervangen door een eenvoudiger vraag (gebruikers rapporteren hogere output). Dat zijn fundamenteel verschillende vragen.

Gang van serverinfrastructuur in Nederlands datacenter met blauwe en teal indicatielampjes.

Wat dit betekent voor jouw productie-beslissing in 2026

De vraag 'welk model moet ik kiezen?' is de verkeerde vraag. De juiste vraag is: welke combinatie van model, infrastructuur en task-mapping past bij mijn specifieke use-case — en welke compute-garanties heb ik nodig?

  1. Breng je primaire AI-taken in kaart: kantoorwerk en code → Opus 4.7 is sterk. Document-OCR en agentic search → evalueer Gemini 3 Flash of 3.1 Pro eerst op kosten-efficiency.
  2. Test beschikbaarheid en throttling-drempels voor je schaalt. Throttling is geen hypothetisch risico bij Anthropic — het is een gedocumenteerde consequentie van hun compute-positie.
  3. Stel in API-aanroepen altijd expliciet het effort-niveau in. Default=medium is een bewuste bezuiniging, geen technische begrenzing.
  4. Bouw model-agnostisch waar mogelijk. Wie nu volledig afhankelijk is van één provider, betaalt straks de prijs van die afhankelijkheid — in beschikbaarheid, kosten of capability-regressies.
  5. Gebruik de Anthropic system card als primaire bron, niet de perscommuniqués. De kaart is ongewoon transparant over beperkingen — inclusief bewuste capability-afzwakkingen op cybersecurity en bepaalde long-context-benchmarks.

Richard Rumelt schreef in 'Good Strategy, Bad Strategy' dat een strategie die overal de beste wil zijn, nergens de beste is. Hetzelfde geldt voor model-selectie. Opus 4.7 is een uitzonderlijk sterk model op een goed gedefinieerde set taken. De fout is om het als een universele oplossing te behandelen — of om de compute-beperkingen te negeren alsof die geen productierelevantie hebben.

Tot slot

Anthropic heeft met Opus 4.7 een model uitgebracht dat op kantoorwerk en code de concurrentie evenaart of verslaat. Dat is geen kleine prestatie. Maar de context eromheen — verplicht adaptief denken, compute-schaarste, een interne enquête die als bewijs voor recursieve zelfverbetering wordt gepresenteerd, bewuste capability-afzwakkingen — vraagt om een nuchtere blik.

De teams die dit goed doen in 2026 zijn niet de teams die het hardst rennen naar het nieuwste model. Het zijn de teams die hun task-matrix kennen, hun provider-afhankelijkheid bewust managen, en de system card lezen voordat ze deployen. Voor wie nog puur op perscommuniqués en benchmarkoverzichten stuurt: dat is een toenemend duur uitgangspunt.

Veelgestelde vragen

Wat is Claude Opus 4.7 en wanneer is het uitgebracht?+
Claude Opus 4.7 is Anthropic's nieuwste frontier-taalmodel, uitgebracht in april 2026. Het introduceert 'adaptive thinking' — dynamische toewijzing van rekenkracht per taak — en scoort sterk op gestructureerd kantoorwerk en code-generatie.
Wat betekent 'adaptive thinking' in Claude Opus 4.7 precies?+
Adaptive thinking houdt in dat het model zelf bepaalt hoeveel rekenkracht het aan een taak besteedt. Als het een vraag als eenvoudig inschat, denkt het er minder lang over na. Het gevolg: je kunt het model niet meer verplichten altijd op maximale diepgang te redeneren. De standaard staat op 'medium effort' — je moet expliciet 'high' of 'max' instellen.
Scoort Opus 4.7 altijd beter dan Opus 4.6?+
Nee. Op kantoorwerk en code is 4.7 sterker. Op agentic search (web browsen) en op de Simple Bench-benchmark scoort 4.7 slechter dan 4.6. Op OCR-taken presteert Gemini 3 Flash beter, terwijl die meer dan tien keer goedkoper is.
Wat is het verschil tussen Claude Opus 4.7 en Claude Mythos Preview?+
Mythos Preview is Anthropic's meest geavanceerde model, momenteel alleen beschikbaar voor geselecteerde organisaties zoals de Amerikaanse overheid. Opus 4.7 is de publiek beschikbare versie. Op vrijwel alle benchmarks presteert Mythos beter dan 4.7, maar toegang is niet publiek.
Wat zijn de compute-beperkingen van Claude Opus 4.7 voor productie-teams?+
Anthropic heeft minder compute ingekocht dan de vraag vereist. Dit leidt tot throttling, verminderde beschikbaarheid en verplicht adaptief denken. Voor teams die hoge volumes of real-time agentic workflows draaien, is dit een reëel risico voor de betrouwbaarheid van hun productie-omgeving.
Is Gemini 3 Flash een serieus alternatief voor Opus 4.7?+
Op specifieke taken wel. Gemini 3 Flash presteert op OCR en documentparsing gemiddeld beter dan Opus 4.7, terwijl het meer dan tien keer goedkoper is. Voor document-zware workflows is het rationeel om Flash te evalueren naast Opus, in plaats van standaard voor het duurste model te kiezen.
Hoe betrouwbaar zijn de benchmarks waarmee Anthropic Opus 4.7 promoot?+
Deels betrouwbaar, deels selectief. Anthropic erkent zelf in het system card dat benchmark supply aan de frontier een bottleneck is. Op sommige benchmarks worden concurrent-vergelijkingen weggelaten. Externe evaluaties laten wisselende resultaten zien. Gebruik het system card als primaire bron en raadpleeg onafhankelijke benchmark-organisaties voor volledigheid.
Wat zijn de nieuwste functies in Claude Code bij Opus 4.7?+
Drie nieuwe functies: (1) routines — geplande prompts die ook zonder open laptop draaien; (2) ultra review — uitgebreide bug-detectie; (3) dispatch — taken remote starten via telefoon op je lokale machine. Voor bestaande Claude Code-gebruikers zijn dit concrete productiviteitsverbeteringen.
Hoe stel ik het denkniveau van Claude Opus 4.7 in via de API?+
Gebruik de parameter voor effort of budget_tokens in je API-aanroep. De standaard staat op 'medium'. Voor complexe redeneer-taken of agentic workflows stel je expliciet 'high' of 'max' in. Doe je dit niet, dan gebruik je een bewust beperkte versie van het model.
Verandert de model-selectiestrategie voor B2B-teams in 2026?+
Ja. De combinatie van sterke capability-specialisatie per model, compute-afhankelijkheidsrisico's en grote prijsverschillen (10× tussen Flash en Opus) maakt task-mapping essentieel. Teams die model-agnostisch bouwen en per use-case het juiste model selecteren, hebben een structureel voordeel ten opzichte van teams die één provider volledig vertrouwen.
Claude Opus 4.7 benchmark analyse voor B2B productie 2026