Claude Sonnet 4.6: le sweet spot pour coder et agentiser

En bref

Anthropic a annoncé Claude Sonnet 4.6: une mise à jour majeure de sa gamme “Sonnet” avec des progrès sur le code, l’agent planning, le long contexte, et surtout le computer use (le modèle agit dans un navigateur/desktop “comme un humain”).

Le point qui fait lever un sourcil (dans le bon sens): jusqu’à 1M tokens de contexte (beta). Dit autrement: tu peux mettre une énorme partie d’un repo, des specs, des tickets, et de la doc dans un même échange… et espérer une exécution plus cohérente.

Ce qu'il faut retenir

Sonnet 4.6 vise le meilleur ratio perf/coût: approche des capacités “Opus-level” pour des tâches à valeur (dev + knowledge work) sans exploser la facture.
Computer use progresse: utile quand tu n’as pas d’API (outils legacy, backoffice, SaaS récalcitrants).
Long contexte = moins de bricolage: moins de résumés manuels, moins de “tu peux me redonner le fichier ?”.
Ce n’est pas magique: le computer use ouvre aussi des risques (prompt injection), donc il faut des garde-fous.

Analyse

1) Pourquoi cette release compte (au-delà du “nouveau modèle”)

Beaucoup d’équipes ont déjà un modèle “qui répond bien”. Le vrai pain point en prod, c’est plutôt:

la consistance (éviter les demi-exécutions),
la capacité à tenir un plan sur 8–20 étapes,
la capacité à lire du contexte réel (codebase, conventions, contraintes).

Sonnet 4.6 est positionné exactement là: moins “show off”, plus “OK je fais le boulot, proprement”.

2) Computer use: l’anti-API (et l’anti-projet de 6 mois)

Le computer use est intéressant pour une raison très terre-à-terre: une partie énorme du monde logiciel n’est pas “API-first”.

Exemples concrets:

extraire des données d’un outil interne legacy,
naviguer un backoffice, remplir un formulaire multi-étapes,
exécuter un process métier dans une UI.

Côté benchmarks, Anthropic cite OSWorld (référence pour évaluer la capacité d’un modèle à opérer dans de vrais logiciels). L’enjeu n’est pas d’avoir 100%: c’est d’arriver à un niveau où ça automatise 30–60% d’un process sans que ton équipe passe sa vie à babysit.

3) Le long contexte (1M tokens): “plus de mémoire”, mais surtout plus de continuité

Le 1M tokens (beta) est un énorme levier pour:

les refactors avec historique + conventions,
les audits (sécurité, qualité, style),
les agents qui doivent croiser plusieurs sources (spec + code + logs + tickets).

La nuance importante: ce n’est pas seulement “je peux coller plus de texte”. C’est “je peux maintenir une intention stable sur une plus longue distance”.

Risques

Prompt injection / contenu hostile dans des pages web (le modèle peut être manipulé par des instructions cachées).
Sur-automation: confondre “ça marche en démo” avec “ça tient un process métier”.
Coût caché: long contexte = plus de tokens = besoin de règles (fenêtrage, compaction, budgets).
Gouvernance: quelles données peuvent être envoyées au modèle (PII, secrets, contrats) ?

Comment l’exploiter dès cette semaine (plan simple)

Choisir 1 workflow répétitif (ex: tri incidents, migration petit module, extraction de données UI)
Définir un playbook: entrée/sortie attendue, tests, conditions d’arrêt
Lancer en mode human-in-the-loop (relecture obligatoire)
Mesurer: temps gagné, taux d’erreurs, points de friction

Sources

Anthropic — Introducing Claude Sonnet 4.6 (17/02/2026): https://www.anthropic.com/news/claude-sonnet-4-6
OSWorld benchmark (computer use): https://os-world.github.io/
Artificial Analysis — GDPval evaluation (office tasks): https://artificialanalysis.ai/evaluations/gdpval-aa