Toutes les analyses
Field Note

Claude Opus 4.7, ce qui change vraiment et ce que ça implique pour vos workflows.

Anthropic a publié Opus 4.7 hier, 16 avril 2026. C'est le successeur direct d'Opus 4.6, sorti en septembre dernier. Disponible immédiatement sur l'API, Claude Code, Cursor et GitHub Copilot, identifiant claude-opus-4-7. Prix inchangé : 5 $ / million tokens en entrée, 25 $ en sortie.

On a passé la journée à le tester sur les workflows qu'on opère pour nos clients. Voici ce qui ressort, et ce que ça change concrètement.

Les chiffres qui comptent

Quatre benchmarks, quatre vraies progressions :

  • SWE-Bench Verified (résolution de bugs GitHub réels en autonomie), 53,4 % → 64,3 %, soit +10,9 points. Pour référence, GPT 5.4 est à 57,7 % sur le même test.
  • CursorBench (coding agentique évalué dans Cursor), 58 % → 70 %, soit +12 points.
  • XBOW visual-acuity (lecture de captures d'écran et diagrammes denses), 54,5 % → 98,5 %. +44 points. C'est le saut le plus brutal de la release.
  • Rakuten SWE-Bench (tâches issues de codebases d'entreprise réelles), ×3 sur la résolution autonome.

Le gain moyen sur les benchmarks de coding tourne autour de +13 %.

Le scoop : compréhension de documents

80,6 % contre 51,1 % pour GPT 5.4 sur OfficeQA Pro.

C'est l'écart le plus marqué de toute l'annonce. +29 points sur un benchmark qui évalue la capacité à répondre à des questions précises sur des documents professionnels denses : contrats, liasses fiscales, rapports annuels, clauses juridiques.

Pour les cabinets que nous accompagnons en comptabilité, juridique, fiscalité et conseil, c'est l'axe le plus directement actionnable. La majorité des projets qui plafonnent en RAG d'entreprise plafonnent précisément là, sur la précision de l'extraction depuis du PDF dense, mal scanné, multi-colonnes. Ce gap explique pourquoi Anthropic gagne de plus en plus de comptes enterprise face à OpenAI sur ces verticales.

Effort × score : le vrai gain économique

Ce qu'Anthropic appelle "même qualité, moins de tokens consommés" est le détail que peu de gens regardent, et c'est probablement le plus important pour un budget API.

Concrètement : Opus 4.7 en low atteint ce qu'Opus 4.6 faisait en medium. Pour beaucoup de pipelines en production, ça veut dire qu'on peut basculer un cran en dessous sur l'effort sans perdre en qualité. La facture baisse, la latence aussi.

Et le plafond monte : en high, 4.7 dépasse le meilleur score jamais atteint par 4.6.

Trois frictions corrigées

Au-delà des scores, trois comportements pénibles d'Opus 4.6 sont réglés :

  1. Les boucles infinies. 4.6 pouvait rester bloqué à relire le même fichier ou répéter la même action, consommant le budget sans progresser. 4.7 s'en sort dans la grande majorité des cas.
  2. Les données inventées. Quand une information manque dans le contexte, le modèle l'indique au lieu de combler avec une réponse plausible. Moins de corrections aval, moins d'évaluation manuelle.
  3. La sur-réflexion systématique. 4.6 déclenchait l'Extended Thinking même sur une requête triviale. 4.7 module sa profondeur de raisonnement seul.

À ça s'ajoute un score en baisse sur le benchmark interne Misaligned Behavior d'Anthropic, moins de mensonge, moins de flatterie, moins de tricherie. C'est mesurable, c'est dans la fiche technique, c'est un signal qu'on prend.

Adaptive Thinking, le nouveau mode de raisonnement

C'est le changement d'architecture le plus visible. Là où Extended Thinking était un mode binaire activable, avec chaîne de pensée visible, Adaptive Thinking est intégré au modèle et modulé automatiquement.

  • Question simple → réponse rapide.
  • Tâche complexe → réflexion approfondie, en interne.
  • Aucune chaîne de pensée à afficher ou à charger côté front.
  • L'arbitrage est fait par le modèle, pas par le développeur.

En pratique : on supprime un paramètre côté API. On laisse faire. C'est le bon move pour les workflows agent, où multiplier les modes manuellement coûte cher en complexité.

Mythos, le détail qui dit beaucoup

Dans l'annonce officielle, Anthropic mentionne Mythos, un modèle interne aux performances supérieures à Opus 4.7, non ouvert au grand public. Accès réservé à des partenaires sélectionnés.

C'est, à notre connaissance, le premier cas documenté où un laboratoire d'IA commercialise un modèle en reconnaissant publiquement qu'un modèle supérieur existe déjà en interne.

Lecture stratégique : la pression compétitive sur OpenAI et Google ne se mesure plus seulement aux benchmarks publics. Elle se mesure aussi à l'écart entre ce qu'un labo publie et ce qu'il garde en réserve.

Ce qu'on retient pour nos clients

Cinq points utilisables dès aujourd'hui :

  1. Migration directe sans re-budgeter. Prix identique, gain moyen +13 %. La décision est triviale pour tout pipeline en cours.
  2. Réviser les niveaux d'effort. Les workflows en medium sur 4.6 méritent un test en low sur 4.7. Économies tokens à attendre.
  3. Re-tester les pipelines RAG documentaire. Le gain de +29 points sur OfficeQA Pro change l'arbitrage build vs. parser spécialisé.
  4. Simplifier les agents. Adaptive Thinking absorbe une couche de logique qu'on écrivait à la main.
  5. Mettre à jour les harnais d'évaluation. Si vous benchmarkez des modèles depuis 4.6, votre dataset doré mérite une passe, les régressions de 4.7 ne sont pas aux mêmes endroits.

On va publier d'ici quinze jours un retour terrain plus détaillé, basé sur les pipelines qu'on bascule cette semaine. Si vous opérez actuellement un système Claude en prod et voulez qu'on regarde ensemble ce que la migration impliquerait, écrivez-nous.