Tre cose si sono mosse simultaneamente quando Anthropic ha rilasciato Claude Opus 4.8 il 28 maggio 2026: i punteggi nei benchmark sono migliorati significativamente rispetto alla 4.7, il pricing è rimasto invariato a $5/$25 per milione di token, e un modello di esecuzione genuinamente nuovo è arrivato sotto forma di dynamic workflow. Questa combinazione — qualità migliore, stesso costo, nuova capacità — è abbastanza insolita da meritare una lettura tecnica attenta prima di integrarlo in produzione.

Questo articolo è una guida alla produzione, non un riassunto della release. Copre cosa è cambiato nell'API, cosa significano questi cambiamenti per il design del sistema, e i pattern di implementazione che evitano l'accumulo invisibile di costi. Il focus è su sei capacità che richiedono ciascuna decisioni ingegneristiche specifiche: controllo dell'effort, pensiero adattivo, prompt caching, steering a metà conversazione, compattazione del contesto e dynamic workflow. Ogni sezione include codice funzionante e almeno una criticità che le note di rilascio non evidenziano (Anthropic, 2026a).

Posizionamento nei benchmark

Opus 4.8 rappresenta un salto significativo rispetto alla 4.7 su ogni benchmark pubblicato da Anthropic, con i guadagni maggiori sui task agentici e long-context. Questi sono numeri pubblicati da Anthropic, quindi trattali come direzionalmente accurati piuttosto che come score assoluti verificati indipendentemente.

Benchmark Opus 4.8 Opus 4.7 Note
— = benchmark introdotto con Opus 4.8; nessuna baseline 4.7 pubblicata da Anthropic per queste suite
SWE-Bench Pro 69,2% 64,3% Coding agentico; ChatGPT 5.5 ottiene 58,6% sullo stesso benchmark
SWE-Bench Verified 88,6% Task di ingegneria del software reali con soluzioni verificate
USAMO 2026 Math 96,7% Ragionamento matematico a livello olimpiadi
GraphWalks Long-Context (1M) 68,1% Ragionamento relazionale al contesto completo di 1M token
Online-Mind2Web 84,0% Navigazione come browser agent; supera ChatGPT 5.5
OSWorld-Verified 82,3% Computer use nel mondo reale in ambienti desktop verificati
Legal Agent (all-pass) >10% Primo <10% Primo modello a superare la barriera del 10% sullo standard rigoroso all-pass

La storia dell'affidabilità conta quanto i punteggi grezzi. Opus 4.8 è quattro volte meno propenso rispetto alla 4.7 a lasciare passare inosservati difetti logici o vulnerabilità nel codice generato. Quando la confidenza del modello scende sotto la sua soglia interna, lo dichiara esplicitamente invece di procedere con falsa sicurezza. Anthropic descrive questo come "livelli vicini a Claude Mythos Preview di allineamento" — Mythos essendo un modello sperimentale orientato all'allineamento che non ha mai raggiunto il pubblico (Anthropic, 2026a).

Specifiche infrastrutturali e prezzi

1M
Finestra di contesto
Token su API, AWS Bedrock, Vertex AI. Ridotta a 200K su Microsoft Foundry per vincoli hardware.
128K
Max output (standard)
Esteso a 300K tramite Message Batches API con l'header beta output-300k-2026-03-24.
2,5×
Throughput Fast Mode
Token di output per secondo più alti. 3× più economico del precedente fast mode: $10/$50 per M token. Solo API diretta.
1.024
Soglia minima cache
Ridotta da 4.096 token in Opus 4.7. I prompt più brevi vengono elaborati normalmente, senza caching.
Tier / Modalità Input (per M token) Output (per M token) Disponibilità piattaforma
Standard $5,00 $25,00 Tutte le piattaforme (API, Bedrock, Vertex, Foundry)
Fast Mode 2,5× velocità $10,00 $50,00 Solo API Anthropic diretta — ignorato su Bedrock, Vertex, Foundry
Cache write (TTL 5 min) $6,25 (1,25× base) Tutte le piattaforme; minimo 1.024 token di input
Cache write (TTL 1 ora) $10,00 (2× base) Tutte le piattaforme; pagato una volta, ammortizzato su tutte le letture
Cache read (hit) $0,50 (risparmio 90%) Tutte le piattaforme; ogni turno dopo la prima scrittura

Controllo dell'Effort e Pensiero Adattivo

Opus 4.8 introduce il controllo deterministico su quanto ragionamento il modello esegue prima di generare una risposta. Questo è separato dall'output stesso — i token di effort sono "token di pensiero" consumati internamente e fatturati a tariffe di input, non mostrati nella risposta a meno che non vengano ispezionati esplicitamente.

Livello 01
Standard
budget_tokens: ~4000
Adatto per ricerche semplici, estrazione di dati e task di formattazione deterministica.
Livello 02
High default
budget_tokens: ~10000
Default su tutte le superfici. Corrisponde al consumo di token predefinito di Opus 4.7 con qualità dell'output superiore.
Livello 03
xhigh / Extra
budget_tokens: ~32000
Per feature multi-file complesse, analisi di sicurezza e decisioni architetturali.
Livello 04
Max / Ultracode
budget_tokens: uncapped
Orchestrazione agentica completa. Necessario per i dynamic workflow. Monitora attivamente il consumo di token.

Il Pensiero Adattivo risolve il problema delle sessioni bimodali: in un singolo loop agentico potresti estrarre un valore da un campo JSON (banale) e poi eseguire il refactoring di un modulo di autenticazione (complesso). Mantenere l'effort al massimo per entrambi è uno spreco. Passando thinking: {"type": "adaptive"} si delega al modello la decisione di effort turno per turno, che sopprime i token di pensiero per i passi semplici e attiva il ragionamento profondo per quelli complessi (Anthropic, 2026b).

Python — Controllo dell'Effort e Pensiero Adattivo
import anthropic

client = anthropic.Anthropic()

# xhigh effort: complex architecture or security analysis
response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 32000},
    messages=[{"role": "user", "content": complex_task}]
)

# Adaptive thinking: model calibrates per-turn — ideal for mixed sessions
response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=conversation_history
)

# Inspect thinking tokens for cost attribution
thinking_tokens = next(
    (b.thinking for b in response.content if b.type == "thinking"),
    None
)
total_cost_tokens = response.usage.input_tokens + response.usage.cache_read_input_tokens

Prompt Caching: il cambiamento della soglia a 1.024 token

L'impatto pratico dell'abbassamento del prompt cacheable minimo da 4.096 a 1.024 token è maggiore di quanto il numero suggerisca. In Opus 4.7, molte definizioni di tool, prompt di sistema brevi e librerie CVE compatte scendevano sotto la soglia e venivano ri-elaborate in silenzio ad ogni turno. In Opus 4.8, il caching è economicamente conveniente per la maggior parte dei prompt di sistema agentici.

L'economia del caching in pratica: una scrittura in cache con TTL di 1 ora a $10/M token viene pagata una volta e si ammortizza su ogni lettura a $0,50/M — un risparmio di 20× ad ogni lettura successiva. Per una pipeline che mantiene un set di regole di sicurezza da 50.000 token nell'arco di una sessione di 48 ore, il costo di scrittura è $0,50, e ogni turno successivo che legge il blocco in cache costa $0,025 invece di $0,25. Su 1.000 turni nella sessione, il risparmio è $225 rispetto all'elaborazione del contesto da zero ogni volta (Anthropic, 2026e).

Python — Prompt Caching con TTL di 1 ora
import anthropic

client = anthropic.Anthropic()

# Large system prompt cached for 1 hour
# Minimum 1,024 tokens required; silent no-op if shorter
response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    system=[
        {
            "type": "text",
            "text": large_cve_database_text,   # ≥ 1,024 tokens
            "cache_control": {"type": "ephemeral", "ttl": "1h"}
        }
    ],
    messages=[{"role": "user", "content": log_fragment}]
)

# Check whether the cache was populated or hit
usage = response.usage
cache_written = usage.cache_creation_input_tokens   # tokens written this call
cache_read    = usage.cache_read_input_tokens        # tokens served from cache

if cache_read > 0:
    saving = (cache_read * 5.00 - cache_read * 0.50) / 1_000_000
    print(f"Cache hit: saved ${saving:.4f} on this turn")

Steering a Metà Conversazione

In precedenza, aggiornare i parametri operativi di un agente a metà sessione richiedeva di modificare il blocco system di primo livello — il che invalidava l'hash della cache per tutti i turni successivi, distruggendo qualsiasi beneficio di caching accumulato. Opus 4.8 introduce il supporto nativo per messaggi role: "system" iniettati direttamente nell'array messages, preservando la cache sui turni precedenti (Anthropic, 2026b).

Quattro vincoli regolano l'utilizzo corretto:

Python — Steering a Metà Conversazione senza invalidare la cache
messages = [
    {"role": "user",      "content": "Analyse network traffic logs for anomalies."},
    {"role": "assistant", "content": initial_analysis},
    # ... many turns later, 120,000 tokens into the session ...
    {"role": "user",      "content": log_batch_47},
    # Inject updated directive — does NOT invalidate the top-level system cache
    {
        "role": "system",
        "content": (
            "Priority override: flag any Base64-encoded payload in subsequent logs. "
            "Preserve all IP addresses and cryptographic hashes verbatim in findings."
        )
    },
    {"role": "user", "content": "Continue analysis with the above priority active."},
]

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=8192,
    system=[{"type": "text", "text": base_system_prompt,
             "cache_control": {"type": "ephemeral", "ttl": "1h"}}],
    messages=messages
)

Compattazione del Contesto: il pattern pause_after_compaction

Man mano che le sessioni agentiche crescono — un demone di monitoraggio che ingerisce log per tre giorni, un workflow di port che dura 11 giorni — alla fine si scontrano con il limite fisico del contesto. La Compattazione del Contesto è la soluzione server-side di Anthropic: quando i token accumulati superano una soglia configurata, l'API sospende la generazione, fa produrre a Claude un denso riassunto semantico dell'intera storia, sostituisce la storia grezza con quel riassunto e riprende. Dal punto di vista del modello la conversazione continua normalmente; dal punto di vista della fatturazione il conteggio dei token si azzera alla lunghezza del riassunto (Anthropic, 2026d).

Il punto architetturale critico per i team di produzione: la compattazione è intrinsecamente lossy (con perdita di dati). Valori esatti, stringhe di vincoli specifiche e dipendenze tra turni che l'agente ha validato dodici turni fa possono essere collassate o omesse nel riassunto. Per i demoni di monitoraggio e le pipeline finanziarie che dipendono dalla preservazione verbatim di fatti specifici, il flag pause_after_compaction: true non è opzionale — è il meccanismo che dà al middleware una finestra per ispezionare il riassunto, estrarre dati critici verso un vector store e reintegrarli prima di riprendere.

Python — Compattazione del Contesto con pausa e persistenza nel vector store
import anthropic

client = anthropic.Anthropic()

def run_agent_turn(messages, session_id, vector_store):
    response = client.beta.messages.create(
        model="claude-opus-4-8",
        max_tokens=8192,
        betas=["compact-2026-01-12"],
        system=base_system,
        context_management={
            "edits": [{
                "strategy": "compact_20260112",
                "trigger": {"type": "token_count", "threshold": 100_000},
                # Tell the model what to preserve verbatim during summarisation
                "instructions": (
                    "Preserve all IP addresses, cryptographic hashes, "
                    "HTTP status codes, and numeric thresholds verbatim."
                ),
                "pause_after_compaction": True
            }]
        },
        messages=messages
    )

    if response.stop_reason == "compaction":
        # Extract the compaction summary block
        compaction = next(
            b for b in response.content if b.type == "compaction"
        )
        # Guard against null content (known SDK edge case)
        summary_text = compaction.content or ""
        if summary_text:
            vector_store.upsert(session_id, summary_text)

        # Resume — server has already replaced history with the compact block
        return run_agent_turn([], session_id, vector_store)

    # Important: billing counts are in usage.iterations, not the top-level usage
    actual_tokens = sum(it.input_tokens for it in response.usage.iterations)
    return response, actual_tokens
Nota di compatibilità SDK

Il Vercel AI SDK (e alcuni altri client di terze parti) hanno incontrato un bug di parsing in cui l'API Anthropic restituiva occasionalmente blocchi di compattazione con un campo content vuoto. L'SDK downstream passava questo blocco vuoto alla chiamata API successiva, che lo rifiutava con messages.N.content.0.compaction.content: content can't be empty, mandando in crash la sessione. La guardia nel codice sopra (summary_text = compaction.content or "" con un controllo null) previene questo crash. Aggiorna il tuo SDK all'ultima versione e applica questa guardia difensivamente indipendentemente — la specifica API Anthropic non garantisce contenuto non nullo in tutti gli scenari di compattazione (Anthropic, 2026d).

Un secondo dettaglio di fatturazione: i conteggi dei token per le sessioni che coinvolgono compattazione non si trovano solo in response.usage — devi sommare response.usage.iterations per ottenere la spesa reale di token per l'intera sessione, incluso il passo di compattazione stesso.

Dynamic Workflows e Ultracode

I Dynamic Workflow sono il modello di esecuzione genuinamente nuovo di Opus 4.8. Quando attivati, Claude Code smette di agire come generatore di codice sequenziale e diventa un orchestratore: scrive uno script di coordinamento, invia subagenti paralleli ad affrontare il problema da angoli indipendenti, assegna revisori avversariali all'output di ogni agente e itera fino a quando la build e la test suite sono pulite — senza coinvolgimento umano tra i passi (Anthropic, 2026c).

Il limite della piattaforma è di 1.000 worker subagente concorrenti. Attivare un workflow richiede di scrivere "Create a workflow" in Claude Code, o di passare l'effort a ultracode tramite /effort ultracode nella CLI — che mappa al parametro API xhigh e concede al modello il permesso di scegliere autonomamente tra una risposta lineare e un'orchestrazione completa.

Il caso studio Bun: cosa significa realmente

Port Zig-to-Rust di Bun — risultati verificati e caveats importanti

Jarred Sumner ha usato i dynamic workflow per portare il runtime di Bun da Zig a Rust: ~750.000 righe di Rust, 11 giorni lavorativi dal primo commit al merge, 99,8% della test suite esistente che supera i test al completamento. Il workflow ha operato in fasi: un agente ha mappato i corretti Rust lifetime per ogni campo di struttura; centinaia di agenti hanno poi portato ogni file sorgente in parallelo, con due revisori avversariali per file che controllavano le discrepanze di runtime; un ciclo di fix ha guidato la build fino alla pulizia; un workflow notturno finale ha ottimizzato il footprint di memoria (Anthropic, 2026c).

Due caveats contano per chiunque ragioni sulla replicabilità. Primo, Sumner conosce profondamente sia il codebase sorgente che quello target — ha approvato gli output dei subagenti ad ogni checkpoint, e la supervisione umana è rimasta il controllo di correttezza ad ogni fase. Secondo, il risultato non è ancora in produzione. La cifra di 750.000 righe in 11 giorni è reale, ma non è un risultato chiavi in mano: replicarla richiede una test suite robusta (l'unico segnale di feedback dell'agente), un'impalcatura ingegneristica sostanziale, e un operatore in grado di valutare gli output intermedi. Pianifica quei prerequisiti, non solo l'invocazione del workflow.

Il rischio di esplosione dei token

Ogni subagente in un dynamic workflow eredita il contesto completo della sessione. Con 1.000 worker concorrenti, un contesto di 50.000 token per agente equivale a 50 milioni di token per step del workflow — al prezzo Standard, sono $250 per step nei soli costi di input. Un loop degenerativo che ritenta indefinitamente le build fallite, o una soglia di trigger mal configurata, può bruciare milioni di token prima che un umano se ne accorga.

La policy di no-refund di Anthropic si applica esplicitamente al consumo agentico fuori controllo. Non è un caso limite di supporto — è una policy dichiarata. La mitigazione non risiede nel parametro ultracode stesso (al lancio non c'è un limite di spesa hardcoded a livello di workflow); risiede nel layer di middleware che il tuo team opera intorno ad esso. I dynamic workflow sui piani Max e Team sono attivi per default; gli account Enterprise richiedono l'abilitazione manuale — usa quel gate per implementare la telemetria prima di abilitarli in modo esteso.

01
Imposta un allarme di budget token prima di qualsiasi invocazione ultracode
Monitora usage.iterations in tempo reale — non solo usage.input_tokens. Imposta un allarme a un multiplo del tuo budget atteso per task (es. 5×) e termina la sessione se l'allarme scatta. L'API Anthropic non espone un limite di spesa nativo a livello di workflow; il tuo middleware deve implementarlo.
02
Metti in cache il contesto condiviso dai subagenti
Ogni subagente legge il contesto di sistema condiviso. Con il caching ora praticabile a 1.024 token, il manifesto della codebase, le istruzioni del test runner e le regole delle zone vietate dovrebbero essere tutte in una cache con TTL di 1 ora prima che il primo subagente parta. Con 1.000 worker, il risparmio è la differenza tra $5/M × 1.000 e $0,50/M × 1.000 su ogni blocco di token condiviso.
03
Richiedi una test suite funzionante prima di ultracode, non dopo
I dynamic workflow iterano sui risultati dei test. Senza test, gli agenti non hanno un segnale su cui convergere — e rimangono in loop. Il caso studio Bun ha funzionato perché Bun aveva il 100% della sua test suite originale intatta e l'agente aveva un segnale verde/rosso chiaro ad ogni commit. Un progetto senza una copertura di test significativa non è pronto per ultracode indipendentemente dalla dimensione del team o dalla capacità del modello.
04
Usa pause_after_compaction nelle sessioni di workflow lunghe
Un workflow di 11 giorni compatterà più volte. Senza pause_after_compaction: true, il modello perde silenziosamente i vincoli impostati nei messaggi di orchestrazione iniziali — scadenze, invarianti architetturali, dipendenze vietate. Fai una pausa dopo ogni compattazione, valida il riassunto rispetto alla tua lista di vincoli, e reinietta gli elementi critici tramite steering a metà conversazione prima di riprendere.
05
Inizia con N=3 subagenti prima di scalare a centinaia
Valida la logica di orchestrazione, il loop di feedback dei test e la contabilità dei token a N piccolo prima di scalare. I bug nello script del coordinatore che sono economici a 3 worker sono catastrofici a 300. La piattaforma ti darà volentieri 1.000 worker; il tuo compito è dimostrare che la pipeline è corretta a 3 prima.
06
Limita ogni subagente a un singolo file o modulo
Il workflow Bun ha assegnato un file per subagente con due revisori. Questa è la giusta granularità: ogni diff è abbastanza piccolo da verificare, e la revisione avversariale rileva le violazioni dei contratti inter-file prima che vengano unite. I subagenti che operano su più file producono diff difficili da revisionare e tendono a confliggere con gli agenti paralleli che lavorano su moduli sovrapposti.

Refusal Stop Details: routing di sicurezza strutturato

Quando Opus 4.8 rifiuta una richiesta che viola i suoi guardrail di sicurezza, l'API restituisce un oggetto stop_details strutturato senza alcuna configurazione aggiuntiva — nessun header beta, nessun parametro speciale. Il campo category classifica il tipo di rifiuto ("cyber", "bio", o null per altre violazioni), abilitando il routing automatizzato a livello di middleware (Anthropic, 2026a).

Python — Routing dei rifiuti con ispezione di stop_details
import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    messages=[{"role": "user", "content": agent_input}]
)

if response.stop_reason == "refusal":
    details  = response.stop_details or {}
    category = details.get("category")   # "cyber" | "bio" | None

    # Note: explanation field is not syntactically stable over time —
    # do not regex-parse it; use category for programmatic routing

    if category == "cyber":
        aws_iam.revoke_session_token(session_token)
        vector_db.quarantine_session(session_id)
        soc_dashboard.raise_incident(
            severity="P1",
            category="cyber",
            session_id=session_id,
        )

    elif category == "bio":
        security_log.critical("Bio-risk refusal flagged", session_id=session_id)
        compliance_team.notify(session_id)

    else:
        # Generic policy violation — log and alert
        security_log.warning("Policy refusal", session_id=session_id)

Deployment enterprise: Bedrock e Vertex

Per le organizzazioni che non possono instradare i dati attraverso l'API pubblica di Anthropic — a causa di requisiti di data residency o vincoli contrattuali — Opus 4.8 è disponibile su Amazon Bedrock e Google Cloud Vertex AI con la stessa finestra di contesto da 1M token. Le convenzioni degli ID modello differiscono tra le piattaforme e contano per il routing cross-region.

Python — Invocazione Bedrock con routing cross-region
import boto3, json

# Cross-region prefix (us.) enables automatic failover across AWS regions
# for throughput peaks — falls back from us-east-1 to Asia Pacific or EU
bedrock = boto3.client("bedrock-runtime", region_name="us-east-1")

payload = {
    "anthropic_version": "bedrock-2023-05-31",
    "max_tokens": 4096,
    "thinking": {"type": "enabled", "budget_tokens": 10000},
    "messages": [{"role": "user", "content": prompt}]
}

response = bedrock.invoke_model(
    modelId="us.anthropic.claude-opus-4-8",   # cross-region prefix
    body=json.dumps(payload)
)

result = json.loads(response["body"].read())

# Important: Fast Mode (anthropic_speed='fast') is silently ignored on Bedrock
# Context Compaction is not supported via Converse API — use InvokeModel
Matrice delle funzionalità per piattaforma — cosa funziona dove

Il Fast Mode (anthropic_speed='fast') è supportato solo sull'API Anthropic diretta. Inviarlo a Bedrock, Vertex o Foundry genera un avviso lato client e viene silenziosamente ignorato — si ottiene la velocità standard al prezzo standard. La Context Compaction non è supportata tramite l'astrazione Converse API di Bedrock; usa invece l'endpoint InvokeModel. Microsoft Foundry impone un limite rigido di 200.000 token di contesto indipendentemente dalle specifiche pubblicate del modello. Tutti e tre i provider cloud supportano il prompt caching con la soglia minima di 1.024 token.

Cosa è cambiato davvero per i team di produzione

Le sei capacità di questo articolo si dividono chiaramente in due categorie: miglioramenti drop-in che riducono i costi o aggiungono flessibilità senza lavoro di migrazione, e modelli di esecuzione genuinamente nuovi che richiedono infrastruttura prima di poterli usare in sicurezza.

Cambiamento Costo di migrazione Cosa ottieni
Upgrade a Opus 4.8 Zero — stessa API, stesso pricing Punteggi benchmark migliori, 4× meno difetti non rilevati, soglia di caching più bassa
Prompt caching a 1.024 token Minimo — aggiungere cache_control al prompt di sistema Riduzione immediata dei costi su qualsiasi prompt di sistema da 1.024 a 4.095 token non cacheable su 4.7
Steering a metà conversazione Additivo — appendere all'array messages esistente Aggiornare le istruzioni dell'agente a metà sessione senza resettare la cache
Context Compaction Moderato — aggiungere header beta + handler pause_after_compaction Conversazioni più lunghe di 1M token; necessario per workflow su scala settimanale
Effort Control / Pensiero Adattivo Moderato — aggiungere parametro thinking, calibrare per caso d'uso Meno spreco di token sui turni semplici; ragionamento più profondo su quelli complessi
Dynamic Workflows / Ultracode Significativo — telemetria token, kill switch, prerequisito test suite Orchestrazione di subagenti paralleli fino a 1.000 worker; codebase su scala settimanale

Se stai eseguendo Opus 4.7 in produzione, le prime tre righe sopra sono disponibili immediatamente — stessa forma API, nessuna nuova infrastruttura. La Context Compaction e l'Effort Control richiedono ciascuna una giornata di lavoro di implementazione. I Dynamic Workflow richiedono tutto il resto prima: una test suite robusta, telemetria token e un kill switch. Abilita nell'ordine indicato, e la complessità ad ogni step è delimitata dall'infrastruttura del passo precedente.

Il cambiamento sottostante che Opus 4.8 rappresenta non riguarda nessuna singola funzionalità. Riguarda il modello che diventa il layer di esecuzione per lavori che in precedenza richiedevano un team di ingegneri e un trimestre di pianificazione. Questo cambiamento è reale, è verificato indipendentemente, e si compone con i pattern infrastrutturali di questo articolo. Ma non elimina il giudizio ingegneristico necessario per operare quell'infrastruttura in sicurezza — alza semplicemente il tetto di ciò che quel giudizio può produrre.

Riferimenti
  1. Anthropic. (2026a). Introducing Claude Opus 4.8. anthropic.com/news/claude-opus-4-8
  2. Anthropic. (2026b). What's new in Claude Opus 4.8 — Claude API Docs. platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-8
  3. Anthropic. (2026c). Introducing dynamic workflows in Claude Code. claude.com/blog/introducing-dynamic-workflows-in-claude-code
  4. Anthropic. (2026d). Compaction — Claude API Docs. platform.claude.com/docs/en/build-with-claude/compaction
  5. Anthropic. (2026e). Prompt caching — Claude API Docs. platform.claude.com/docs/en/build-with-claude/prompt-caching
  6. Anthropic. (2026f). Claude API pricing. platform.claude.com/docs/en/about-claude/pricing
M
Michele Mader
Technical Leader · AI Systems & Data Engineering

Guido la direzione tecnica di prodotti dati basati su AI per clienti enterprise — definendo architetture, scegliendo lo stack tecnologico e gestendo la delivery dal roadmap alla produzione.

Connettiti su LinkedIn