Claude Opus 4.7: wat de benchmarks echt zeggen voor productie

Adaptief denken: innovatie of bezuiniging?
Een model dat zelf beslist hoeveel het nadenkt over jouw taak. Dat klinkt elegant. Maar Claude Opus 4.7 laat precies zien waar dat elegant-klinken ophoudt en de pijn begint.
Opus 4.7 introduceert 'adaptive thinking': als het model een taak als eenvoudig inschat, besteedt het er minder rekenkracht aan. Op papier efficiënt. In de praktijk betekent het dat je controle verliest over de diepgang van redenering. De maker van de Simple Bench-benchmark — een test vol ogenschijnlijk eenvoudige vragen die juist common sense vereisen — zag Opus 4.7 slechter scoren dan zijn voorganger 4.6. Niet omdat het model zwakker is, maar omdat het de vragen onderschat...
Een AMD senior AI-director constateerde al vóór de release van 4.7 dat Claude 4.6 'generfed' was: het aantal tekens dat aan denken werd besteed daalde met driekwart ten opzichte van eerdere versies. Meer bail-outs, minder doordenken. De hoofdontwikkelaar van Claude Code bevestigde dit: medium effort is nu de standaard. Wie serieuze agentic workflows bouwt, moet dat actief aanpassen.
Benchmarks: welke zeggen iets, welke niet?
De benchmark-situatie rond Opus 4.7 is representatief voor een breder probleem in de sector: er bestaat geen universele maatstaf voor modelkwaliteit. Het systeem kaart van Anthropic erkent dit zelf op pagina 43 — benchmark supply aan de frontier blijft een bottleneck.
| Benchmark | Opus 4.6 | Opus 4.7 | Concurrent | Opmerking |
|---|---|---|---|---|
| Kantoorwerk (knowledge work) | — | Beste beschikbaar | Gemini 3.1 Pro | Opus 4.7 wint op vanilla office tasks |
| Vibe Coding (web app bouwen) | — | Beste op snelheid + prestatie | GPT-5.4 | Niet op kosten |
| Agentic search / web browsing | Beter | Slechter | GPT-5.4 | Regressie t.o.v. 4.6 |
| OCR / document parsing | — | Verbeterd t.o.v. 4.6 | Gemini 3 Flash | Flash is 10× goedkoper én beter |
| Cybersecurity-kwetsbaarheden | Beter | Bewust afgezwakt | Mythos Preview | Anthropic begrenst dit bewust |
| ARC-AGI2 (abstract patroonherkenning) | — | Slechter | GPT-5.4 Pro | Niet-taalkundige redenering |
De tabel maakt één ding meteen duidelijk: Opus 4.7 is geen model dat overal wint. Het is een model dat op specifieke taken — gestructureerd kantoorwerk, code genereren, complexe documentanalyse — een sterke keuze is. Op andere taken, zoals OCR of agentic web-browsing, loop je tegen een prijsmuur aan. Gemini 3 Flash is meer dan tien keer goedkoper en presteert beter op documentparsing. Dat is geen detail, dat is een architectuurkeuze.

Het compute-probleem: Anthropic's strategische Achilleshiel
Claude en Gemini hebben hun marktaandeel in generatieve AI-websiteverkeer het afgelopen jaar elk ruwweg verviervoudigd. Voor het eerst sinds de lancering van ChatGPT in november 2022 dreigt het marktaandeel van OpenAI onder de vijftig procent te zakken. Dat is een indrukwekkende verschuiving.
Maar succes heeft een keerzijde. Volgens een intern OpenAI-memo dat uitlekte naar The Verge gelooft OpenAI dat Anthropic een strategische fout heeft gemaakt: te weinig compute ingekocht voor de vraag die ze hebben opgebouwd. De gevolgen zijn al merkbaar — throttling, verminderde beschikbaarheid, een minder betrouwbare gebruikerservaring. De hoofdontwikkelaar van Codex (OpenAI) formuleerde het compact: 'Codex is compute-efficiënt, altijd beschikbaar, nooit down.'
“The whole point of Claude was that it was really good at inferring your intent and could work out what you want and now you have to be extremely precise just to get it to do anything.”
Dit citaat raakt de kern van wat er speelt. Opus 4.7 is niet per se minder capabel — het is systemisch anders geconfigureerd om compute te sparen. Voor een B2B-team dat agentic workflows bouwt, is dat een materieel verschil. Je betaalt premium-priJS voor een model dat zichzelf begrenst.

Mythos Preview: hype of horizon?
Anthropic heeft een bijzondere positie bereikt: het bedrijf is op één maatstaf de eerste AI-startup die een biljoen dollar valuation passeert — nog vóór een beursgang. Dat cijfer is grotendeels gebaseerd op Claude Mythos Preview, een model dat alleen voor geselecteerde insiders beschikbaar is, waaronder de Amerikaanse overheid en grote techbedrijven.
Eén statistiek rondom Mythos kreeg veel aandacht: interne Anthropic-ingenieurs rapporteerden via een interne enquête dat Mythos hun output met een factor vier versnelde. Klinkt revolutionair. Maar de methodologie verdient kritisch lezen...
- De vraag luidde: 'Hoeveel meer output produceerde je de afgelopen week vergeleken met geen model-toegang?' — niet: hoeveel tijd bespaarde je, niet: was die output beter.
- De enquête was opt-in op basis van interesse, geen aselecte steekproef. Degenen die Mythos het meest hadden gebruikt en de meest geschikte taken hadden, reageerden disproportioneel.
- Anthropic's CEO spreekt publiekelijk over 50% werkloosheid onder kenniswerkers en het imminente einde van alle ziekten. Het contrast met een informele interne enquête als bewijs is groot.
Dat is geen aanval op Mythos als model — er zijn sterke indicaties dat het uitzonderlijk presteert. Maar de communicatie rondom Mythos illustreert een patroon in de sector dat Daniel Kahneman 'substitutie' zou noemen: een moeilijk te beantwoorden vraag (is dit model klaar voor recursieve zelfverbetering?) wordt vervangen door een eenvoudiger vraag (gebruikers rapporteren hogere output). Dat zijn fundamenteel verschillende vragen.

Wat dit betekent voor jouw productie-beslissing in 2026
De vraag 'welk model moet ik kiezen?' is de verkeerde vraag. De juiste vraag is: welke combinatie van model, infrastructuur en task-mapping past bij mijn specifieke use-case — en welke compute-garanties heb ik nodig?
- Breng je primaire AI-taken in kaart: kantoorwerk en code → Opus 4.7 is sterk. Document-OCR en agentic search → evalueer Gemini 3 Flash of 3.1 Pro eerst op kosten-efficiency.
- Test beschikbaarheid en throttling-drempels voor je schaalt. Throttling is geen hypothetisch risico bij Anthropic — het is een gedocumenteerde consequentie van hun compute-positie.
- Stel in API-aanroepen altijd expliciet het effort-niveau in. Default=medium is een bewuste bezuiniging, geen technische begrenzing.
- Bouw model-agnostisch waar mogelijk. Wie nu volledig afhankelijk is van één provider, betaalt straks de prijs van die afhankelijkheid — in beschikbaarheid, kosten of capability-regressies.
- Gebruik de Anthropic system card als primaire bron, niet de perscommuniqués. De kaart is ongewoon transparant over beperkingen — inclusief bewuste capability-afzwakkingen op cybersecurity en bepaalde long-context-benchmarks.
Richard Rumelt schreef in 'Good Strategy, Bad Strategy' dat een strategie die overal de beste wil zijn, nergens de beste is. Hetzelfde geldt voor model-selectie. Opus 4.7 is een uitzonderlijk sterk model op een goed gedefinieerde set taken. De fout is om het als een universele oplossing te behandelen — of om de compute-beperkingen te negeren alsof die geen productierelevantie hebben.
Tot slot
Anthropic heeft met Opus 4.7 een model uitgebracht dat op kantoorwerk en code de concurrentie evenaart of verslaat. Dat is geen kleine prestatie. Maar de context eromheen — verplicht adaptief denken, compute-schaarste, een interne enquête die als bewijs voor recursieve zelfverbetering wordt gepresenteerd, bewuste capability-afzwakkingen — vraagt om een nuchtere blik.
De teams die dit goed doen in 2026 zijn niet de teams die het hardst rennen naar het nieuwste model. Het zijn de teams die hun task-matrix kennen, hun provider-afhankelijkheid bewust managen, en de system card lezen voordat ze deployen. Voor wie nog puur op perscommuniqués en benchmarkoverzichten stuurt: dat is een toenemend duur uitgangspunt.



