L'articolo su Cursor 3.0 si basava su un'affermazione economica: orchestrare molti agenti amplifica la propagazione degli errori più velocemente di quanto amplifichi l'output utile. Composer 2.5 rompe uno degli input di quell'equazione — il prezzo di una chiamata al modello è appena sceso di un ordine di grandezza nel tier Standard. Il resto dell'equazione ha retto. Ecco cosa è cambiato, e come pianificare di conseguenza.

Sei settimane dopo il rewrite 3.0, la forma della scommessa di Cursor è chiara. L'articolo 3.0 inquadrava l'Agents Window, i git worktree e l'ecosistema MCP come l'architettura degli agenti paralleli autonomi. Ciò che è stato rilasciato da allora — le versioni 3.3, 3.4 e Composer 2.5 — è la parte che rende quell'architettura economicamente seria: un modello proprietario abbastanza economico da far sì che far girare dieci agenti in parallelo smetta di essere una decisione di budget, e un'infrastruttura cloud che li esegue fuori dal proprio laptop, nella propria topologia di deployment, con la governance enterprise integrata.

La domanda interessante per chi guida un'organizzazione di sviluppo non è se tutto ciò sia impressionante. Lo è. La domanda è se agenti più economici e veloci cambino la conclusione a cui era giunto l'articolo 3.0 — che il collo di bottiglia è il giudizio, non la generazione. Non la cambiano. Ma spostano la linea, e dove si sposta determina come si dovrebbero instradare i lavori, pianificare la spesa e gestire i merge.

Cosa è uscito: la timeline delle sei settimane

Release Data Cosa è cambiato
Enterprise 4 mag Blocklist per provider e modello per ruolo/gruppo; limiti di spesa soft con alert al 50% / 80% / 100%; analytics sull'utilizzo per utente e superficie
3.3 6–7 mag Analisi del consumo di contesto tra regole, skill, MCP e subagenti; livelli di effort Bugbot configurabili; stabilità MCP con alta parallelizzazione
3.4 13 mag Ambienti cloud per agenti — configurazione Dockerfile, supporto multi-repo, segreti limitati alla build, ~70% build cached più veloci, storico versioni ambiente, rollback, audit log
Composer 2.5 18 mag Nuovo modello di coding proprietario; benchmark competitivi con il frontier a ~1/10 del costo per token del tier Standard
Gartner MQ 20 mag Cursor nominato Leader nel 2026 Magic Quadrant per Enterprise AI Coding Agents — il più avanzato sulla Completeness of Vision
Cloud agents 21 mag Cursor pubblica "What we've learned building cloud agents" — risultati pratici dal dogfooding interno

La progressione è coerente. Gli aggiornamenti enterprise danno agli amministratori il controllo sulla spesa e sui modelli; la 3.3 fornisce visibilità su cosa consuma il budget di contesto; la 3.4 sposta l'esecuzione degli agenti in ambienti Dockerizzati riproducibili che possono attraversare più repository; Composer 2.5 rende economico il modello che gira in quegli ambienti. Ogni passo abbassa il costo marginale di inviare un agente. Questa è la tesi che Cursor sta eseguendo — portare il costo per agente verso zero e il flusso di lavoro con agenti paralleli diventa il default anziché l'esperimento.

Composer 2.5: Kimi K2.5 Addestrato da Cursor su Larga Scala

Composer 2.5 è costruito sul checkpoint open-weight Kimi K2.5 di Moonshot AI — la stessa base di Composer 2 — poi post-addestrato su larga scala dal team di Cursor. Capire cosa è stato modificato, e in che misura, spiega perché il prezzo ha potuto scendere mentre i numeri dei benchmark hanno tenuto (Cursor, 2026a).

Architettura del modello — Kimi K2.5

Kimi K2.5 è un modello mixture-of-experts (MoE) rilasciato da Moonshot AI sotto licenza Modified MIT. Numero totale di parametri: circa 1,04 trilioni. Parametri attivi per token di inferenza: circa 32 miliardi. Il design MoE fa sì che per qualsiasi input venga attivata solo una frazione dei pesi totali — il costo computazionale di un singolo forward pass corrisponde alla porzione attiva da 32B, non all'intero 1T. Questa è la ragione architetturale per cui Cursor può offrire output di qualità frontier a una frazione del prezzo dei modelli densi frontier (Cursor, 2026a).

Cursor ha investito l'85% del budget totale di calcolo per questo modello nella propria pipeline di post-training — non nel pretraining del modello base. Quella pipeline includeva reinforcement learning con feedback testuale, continued pretraining e training mirato su 25× più task sintetici di coding rispetto a quelli usati da Composer 2. Uno schema degno di nota: la "feature deletion," in cui una feature funzionante viene rimossa da una codebase e il modello deve ricostruirla usando solo la test suite come segnale di reward. Nessuna valutazione umana, reward automatico e verificabile. Il modello ha ricevuto anche una ricerca deliberata sul reward hacking per migliorare la robustezza nelle sessioni lunghe senza supervisione — un vero failure mode quando gli agenti girano per minuti anziché secondi (Cursor, 2026a).

Risultati dei benchmark

Benchmark Composer 2.5 Claude Opus 4.7 Guadagno vs Composer 2
SWE-Bench Multilingual 79,8% 80,5% +6 pp
Terminal-Bench 2.0 69,3% 69,4% +7 pp
CursorBench v3.1 63,2% 61,6% +11 pp

Questi sono numeri pubblicati da Cursor, quindi vanno trattati come un segnale da valutare, non come un verdetto definitivo. CursorBench v3.1 è la suite interna di Cursor per task reali sottospecificati, dove non esiste un'unica risposta corretta. Il fatto che Composer 2.5 superi Opus 4.7 nel tipo di task più rappresentativo del lavoro agentico reale — pur restando entro frazioni di punto sui benchmark esterni — è il segnale rilevante (Cursor, 2026a).

Il calo dei prezzi

Con Composer 2.5 arrivano due tier di prezzo. La distinzione conta ed è ignorata dalla maggior parte dei commenti.

Modello / Tier Input / output (per M token) Note
Composer 2.5 Standard $0,50 / $2,50 1/10 del $5 / $25 di Opus 4.7 su input e output; latenza più alta
Composer 2.5 Fast default $3,00 / $15,00 40% sotto Opus 4.7 sull'input ($3 vs $5); 40% sull'output ($15 vs $25); latenza più bassa
Claude Opus 4.7 $5,00 / $25,00 Riferimento frontier; 10× Standard, ~1,7× Fast su entrambe le dimensioni (Anthropic, 2026)
L'affermazione "10× più economico" richiede una precisazione

Il titolo "10× più economico" si riferisce al tier Standard. Il tier Fast — che è il default, e che la maggior parte degli utenti userà quando vuole feedback interattivo rapido — è priced al 60% circa di Opus 4.7 su input e output. Si tratta di un risparmio significativo, non di un risparmio di un ordine di grandezza. Per ottenere la riduzione di un ordine di grandezza bisogna instradare attivamente il lavoro verso Standard e accettarne la latenza più alta. È una decisione di configurazione, non un vantaggio automatico.

Il benchmark indipendente è il segnale più chiaro. Il Coding Agent Index di Artificial Analysis — che misura il prezzo di un mix fisso di task end-to-end anziché per token — ha posizionato Composer 2.5 al terzo posto assoluto, dietro solo alle varianti ad alto effort di Claude Opus 4.7 e ChatGPT 5.5 (Artificial Analysis, 2026). L'indice è un composito di SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 e SWE-Atlas-QnA — un set più difficile e vario di qualsiasi singolo benchmark.

62
Coding Agent Index
Composer 2.5 — 3° assoluto, dietro Opus 4.7 (66) e ChatGPT 5.5 (65)
$0,07
Per task — Standard
vs $4,10 per Opus 4.7 (max) e $4,82 per ChatGPT 5.5 (xhigh) — circa 60× più economico
$0,44
Per task — Fast
vs $4,10 per Opus 4.7 — circa 9× più economico per il tier interattivo di default
4 pt
Gap dall'indice frontier
Composer 2.5 (62) vs Opus 4.7 max (66) — distanza di una categoria CursorBench

Cursor è per la prima volta sulla frontiera di Pareto costo-qualità. Le versioni precedenti di Composer erano competitive sul costo ma distaccate in modo significativo sulle valutazioni esterne. Composer 2.5 chiude quel gap fino al rumore statistico su due dei tre benchmark, il che significa che la scelta del tier riguarda davvero i trade-off tra latenza e spesa — non la qualità sacrificata.

Cosa cambia nella matematica del 3.0

L'articolo 3.0 assumeva che il best-of-n — eseguire lo stesso prompt su più agenti paralleli — fosse una scelta deliberata e costosa, riservata ai refactoring ad alto rischio. Con i prezzi del tier Standard, campionare lo spazio delle soluzioni su più agenti paralleli smette di essere un'occasione speciale. Dieci candidati Composer-Standard costano all'incirca quanto uno su Opus 4.7. Questo abbassa genuinamente il lato generazione dell'equazione.

Non fa nulla al lato revisione. La generazione più economica non rende un diff più facile da ispezionare, un confine di sicurezza più facile da ragionare, o una dipendenza cross-service più facile da rilevare. Dieci candidati economici sono dieci cose da revisionare, non una. Se la capacità di revisione è fissa, abbassare il costo della generazione non aumenta il throughput — aumenta la coda. La leva sta nello scalare la revisione almeno tanto velocemente quanto si scala la generazione.

Un framework di routing per i responsabili tecnici

Il cambiamento nel modello operativo è la vera storia, ed è dove un tech lead guadagna il proprio valore. Un modello più economico non significa "usalo per tutto" — è una decisione di routing, e il routing si mappa direttamente sulla tassonomia dei task su cui si chiudeva l'articolo 3.0: il lavoro spec-chiaro e verificabile automaticamente va al modello economico; il lavoro di giudizio resta al frontier o all'essere umano.

Tipo di lavoro Indirizza a Perché
Generazione di test, scaffolding, refactoring meccanici, aggiornamenti documentazione, migrazioni schema con pattern noti Composer 2.5 Standard L'output è verificabile automaticamente; il diff è circoscritto e testabile; gli errori emergono in CI, non in produzione
Feature multi-file con moderata ambiguità, cicli iterativi sensibili alla latenza Composer 2.5 Fast La velocità conta per il ciclo interno; il costo è ancora ~40% sotto le tariffe frontier
Architettura, consistenza cross-service, modifiche ai confini di sicurezza, specifiche ambigue Modello frontier (Opus 4.7 / ChatGPT 5.5) o umano La correttezza richiede contesto non presente nella codebase; una risposta sbagliata a basso costo è quella costosa

La regola pratica da interiorizzare: un modello economico è economico solo se il diff risultante è circoscritto, testabile e facile da ispezionare. Non appena si instrada verso Composer un lavoro che produce una modifica ampia, difficile da revisionare e che tocca confini di fiducia, il risparmio sui token viene eclissato dal costo di revisione e incidente. Si instrada sulla verificabilità, non sulla fiducia.

Un modo per codificare questa strategia di routing è un file di istruzioni per agenti che le regole di Cursor ereditano. Ecco un pattern minimale:

.cursor/rules/agent-routing.md — politica di routing degli agenti
# Agent Routing Policy
# This file is read by Cursor agents as a system instruction.

## Model selection

Use Standard tier (lower latency acceptable) for:
- Generating or expanding test files
- Scaffolding new files from an existing pattern
- Mechanical refactors (rename symbol, extract constant, update import paths)
- Documentation updates and inline comment additions
- Schema migrations matching a documented pattern

Use Fast tier (interactive, latency-sensitive) for:
- Multi-file feature work with a clear spec
- Iterative bug-fixing where you expect several rounds

STOP and ask a human for any task involving:
- Changes to authentication, authorisation, or session management
- Cross-service API contracts (adding / removing fields another service reads)
- Infrastructure or Dockerfile changes
- Any file in /secrets, /certs, or /.github/workflows

La pipeline: genera → filtra → seleziona

Quando la generazione parallela è economica, la configurazione produttiva diventa breadth-first: generare più candidati, lasciar eliminare quelli rotti dalla CI, poi selezionare il diff migliore che supera i test per la revisione umana. La pipeline che segue comprime quello che era un ciclo seriale "scrivi → revisiona → itera" in un ciclo parallelo "genera molti → filtra duramente → revisiona uno."

01
Genera (N agenti)
N agenti Composer-Standard eseguono lo stesso task in worktree paralleli. A $0,07/task, dieci candidati costano meno di un dollaro.
Composer 2.5 Standard
02
Filtra (CI)
Test, lint, type-check, limite dimensione diff, review Bugbot. I candidati falliti vengono scartati automaticamente — nessun tempo umano speso.
GitHub Actions + Bugbot
03
Seleziona (conductor)
Un conductor Composer-Fast o Opus 4.7 sceglie il diff migliore tra quelli passati: superficie di modifica minima, miglior delta di copertura dei test.
Composer 2.5 Fast
04
Revisione (umana)
Un umano revisiona un diff circoscritto, già passato dalla CI — non l'output grezzo della generazione. La superficie di revisione è delimitata e pre-verificata.
Giudizio umano

Il passo di filtraggio è portante. Una pipeline CI che gira veloce e copre le cose giuste è ora una parte fondamentale dell'infrastruttura per agenti, non solo del workflow per sviluppatori umani. Ecco un workflow GitHub Actions che implementa i controlli chiave per le PR scritte dagli agenti:

GitHub Actions — gate CI per PR scritte dagli agenti
name: Agent PR Gate
on:
  pull_request:
    types: [opened, synchronize]

jobs:
  agent-gate:
    runs-on: ubuntu-latest
    if: startsWith(github.event.pull_request.title, '[agent]')
    steps:
      - uses: actions/checkout@v4

      - name: Run test suite
        run: npm test --ci

      - name: Enforce diff size limit
        run: |
          FILES=$(git diff --name-only origin/main...HEAD | wc -l)
          if [ "$FILES" -gt 20 ]; then
            echo "Agent PR touches $FILES files — exceeds 20-file limit"
            exit 1
          fi

      - name: Block trust-boundary files
        run: |
          if git diff --name-only origin/main...HEAD | grep -qE \
            '^(\.github/workflows|secrets/|certs/|infra/)'; then
            echo "Agent PR touches a protected path — requires human author"
            exit 1
          fi

            # Bugbot si integra tramite GitHub webhook — configurare nel dashboard Cursor.
      # Per le PR scritte dagli agenti si raccomanda il livello di effort "high".

Il costo che non si è mosso

L'inferenza più economica aiuta esattamente dove l'articolo 3.0 diceva che gli agenti già funzionavano. Non fa nulla per la categoria in cui falliscono: decisioni architetturali, confini di sicurezza, consistenza cross-service, performance su larga scala. Questi fallimenti non sono priced in token. Un'assunzione architetturale sbagliata costa lo stesso da generare, che il modello sia Opus 4.7 o Composer-Standard, e costa molto di più di entrambi da rilevare e correggere. Abbassare il costo di generazione non tocca quella voce — la rende solo una quota maggiore del totale.

L'esperimento self-driving, letto con attenzione

La ricerca interna di Cursor è la migliore evidenza dei limiti. Nel febbraio 2026 il team ha pubblicato "Towards self-driving codebases," descrivendo un sistema multi-agente interno che ha girato per una settimana continua con un picco di ~1.000 commit all'ora attraverso centinaia di agenti e 10 milioni di tool call, senza intervento umano una volta avviato. Il progetto: costruire un browser web da zero. È un risultato genuinamente notevole (Cursor, 2026b).

Ma, letto con attenzione, è anche l'argomento più forte a favore della tesi del 3.0 — per via dei trade-off che Cursor ha dovuto fare per raggiungere quel throughput:

Tre cose che l'esperimento self-driving rivela
01
La correttezza al 100% per commit era incompatibile con il throughput. Richiedere la correttezza completa prima di ogni commit "causava serializzazioni e rallentamenti importanti." Un singolo typo o una modifica API bloccava l'intero sistema; gli agenti si accatastavano per risolvere lo stesso problema calpestando il lavoro degli altri. Il throughput richiedeva di tollerare un tasso di errore continuativo e fidarsi degli altri agenti per la pulizia.
02
Il collo di bottiglia è diventata la codebase, non il modello. Centinaia di agenti che compilano un monolite simultaneamente generavano multi-GB/s di I/O di artifact di build. La lezione di Cursor: "project structure, architectural decisions, and developer experience can affect token and commit throughput" — perché il tempo di compilazione domina il tempo di ragionamento e coding su larga scala.
03
Gerarchia e ownership erano obbligatorie. Il design finale era composto da planner, sub-planner e worker — e il sistema si affidava a un'ownership e a una delega efficaci sull'intera codebase per mantenere la correzione degli errori. Non "gli agenti sostituiscono gli ingegneri"; "gli agenti richiedono un'architettura di orchestrazione e un backstop di verifica."

Mille commit all'ora è una velocità di generazione. La policy di correttezza rilassata è la tassa di verifica resa esplicita. Il muro dell'I/O su disco è un promemoria che il build system e la struttura del monorepo sono ora infrastruttura critica per le performance degli agenti, non solo per gli sviluppatori umani. Portare la generazione verso l'infinito non riduce queste tre cose — le rende l'intero lavoro.

I cambiamenti strutturali sotto il modello

Tre cambiamenti nelle sei settimane contano più per l'adozione enterprise dei numeri benchmark.

Bugbot: la review fatturata a utilizzo

Bugbot è passato dall'abbonamento alla fatturazione a utilizzo — con effetto al prossimo rinnovo dopo l'8 giugno per i clienti esistenti (Cursor, 2026c). Il piano da $40/seat/mese viene sostituito da un prezzo per esecuzione con livelli di effort configurabili.

Cambio di fatturazione Bugbot — cosa prevedere

Una review Bugbot a effort default costa $1,00–$1,50 per pull request, a seconda delle dimensioni. Una review a effort elevato costa di più. Per un team che fa merge di 50 PR/settimana a effort default, il costo è di circa $50–$75/settimana — paragonabile al vecchio abbonamento flat, ma ora variabile con il throughput. Se si adotta la pipeline di generazione parallela descritta sopra e si generano dieci candidati per task, si filtra prima che Bugbot venga eseguito — così solo i candidati che superano la CI arrivano a Bugbot. La struttura economica cambia: conviene far girare Bugbot su meno diff, di qualità più alta, anziché su ogni tentativo di generazione.

Non è una nota a margine sui prezzi — è Cursor che monetizza la review come servizio a consumo. L'azienda che vende il motore di generazione vende ora anche il motore di verifica, a esecuzione. Letto rispetto a dove si trova il vero collo di bottiglia, è una scommessa lucida su dove andrà la spesa.

Cloud agent: ambienti reali, non sandbox

I cloud agent della 3.4 girano in ambienti reali con la topologia di deployment effettiva, non in sandbox che la approssimano. Configurazione basata su Dockerfile, supporto multi-repo, storico delle versioni dell'ambiente con rollback e segreti limitati alla build significano che un agente può operare contro il proprio stack reale. Aspetto cruciale: i segreti di build sono limitati al passo di build e non raggiungono mai l'agente in esecuzione — il che chiude il foot-gun più comune nell'infra per agenti, ovvero una chiave API incorporata in un container in esecuzione.

Dockerfile — segreti limitati alla build, nulla trapela nel layer di runtime
# Stage di build: i segreti sono disponibili qui via --mount, non nell'immagine finale
FROM node:22-slim AS builder
WORKDIR /app
COPY package*.json ./

# Il segreto è montato solo al momento della build — mai scritto in un layer
RUN --mount=type=secret,id=NPM_TOKEN \
    NPM_TOKEN=$(cat /run/secrets/NPM_TOKEN) npm ci

COPY . .
RUN npm run build

# Stage di runtime: solo l'artifact compilato, zero credenziali di build
FROM node:22-slim AS runner
WORKDIR /app
COPY --from=builder /app/dist ./dist
COPY --from=builder /app/node_modules ./node_modules

# Il processo agente non ha accesso a NPM_TOKEN — non è mai stato scritto qui
CMD ["node", "dist/server.js"]

I report pratici sul caching sono positivi: le rebuild Dockerfile cached sono scese da circa nove minuti a meno di due quando cambia solo il layer applicativo, eliminando del tutto il loop Docker locale. Per un'organizzazione microservizi, il supporto multi-repo è lo sblocco chiave — un agente confinato a un solo repository non può ragionare sui servizi che una modifica reale attraversa. La scala di NVIDIA mostra cosa può supportare la piattaforma sottostante: 30.000 sviluppatori che usano Cursor, con 3× più codice committato su una codebase multi-repo estesa (Cursor, 2026d).

Governance: finalmente abbastanza per fare la differenza

Gli aggiornamenti enterprise del 4 maggio hanno aggiunto abbastanza controlli da rendere il "deployment governato" non più teorico. Le aggiunte chiave:

01
Blocklist per modello e provider per ruolo
È possibile vietare a un team o a un singolo di usare un modello o provider specifico. Questo è il controllo che separa "spesa individuale dello sviluppatore" da "gestione del rischio organizzativo" — si può impedire a un team di sicurezza di inviare codice a un modello non valutato, senza toccare il resto dei loro strumenti.
02
Limiti di spesa soft con alert graduali
Gli alert scattano al 50%, 80% e 100% di un budget configurato — nessun blocco rigido che interrompa il lavoro a metà task, ma visibilità prima dello sforamento. È così che si trasforma uno strumento con curve di costo imprevedibili in una voce di bilancio prevedibile.
03
Analytics sull'utilizzo per superficie
L'utilizzo è filtrabile per utente, superficie (chat, agente, cloud, CLI) e intervallo temporale. Il dettaglio per superficie conta: utilizzo in chat e utilizzo in agente hanno profili di costo e rischio diversi. Vederli separatamente permette di tracciare l'adozione del workflow agentico indipendentemente dall'uso generale dell'assistente.
04
Riconoscimento Gartner MQ
Cursor è stato nominato Leader nel Magic Quadrant del 20 maggio per Enterprise AI Coding Agents, il più avanzato sulla Completeness of Vision, con oltre il 70% delle aziende Fortune 500 che risultano utilizzare la piattaforma (Cursor, 2026e). GitHub Copilot (per il terzo anno consecutivo) e OpenAI con Codex sono stati nominati anch'essi Leader nello stesso report — Cursor guida sulla vision, ma non è solo.

La superficie di fiducia si è espansa con le capacità

Ognuno di questi guadagni allarga ciò che un agente può toccare, e il modello di sicurezza sta ancora recuperando terreno. L'illustrazione più chiara è CVE-2026-26268, corretto nella versione 2.5 dell'applicazione Cursor.

CVE-2026-26268 — sandbox escape tramite Git hook

Un agente malevolo — tramite prompt injection dal contenuto del repository — poteva scrivere nelle impostazioni .git protette in modo inadeguato, inclusa la directory .git/hooks/. La successiva operazione Git di routine (un checkout su un repo clonato) esegue automaticamente l'hook con i privilegi dello sviluppatore, ottenendo l'esecuzione di codice fuori dalla sandbox senza alcuna interazione dell'utente. Novee, il ricercatore che ha scoperto la vulnerabilità, la punteggia CVSS 8.1 High sul vettore base pubblicato; l'arricchimento NVD la punteggia 9.9 Critical (Novee, 2026; NVD, 2026).

La disputa sui punteggi è meno importante del meccanismo: un IDE tradizionale è passivo. Un IDE agentico decide autonomamente quali comandi eseguire — incluse operazioni Git su repository che non ha creato — eliminando la distanza tra "ho aperto un repo" e "ho eseguito codice dell'attaccante." Quando si danno agli agenti ambienti reali, scope multi-repo reali e segreti reali, si dà anche a una catena di prompt-injection un raggio d'azione molto più ampio.

I controlli di governance enterprise sopra descritti non sono finiture opzionali per un'organizzazione regolamentata — sono lo strato di mitigazione esattamente per questa classe di rischio. Postura pratica: bloccare le versioni e applicare le patch tempestivamente (il runtime per agenti ha rilasciato oltre dieci CVE nella finestra 2025–2026). Governare le connessioni MCP con approvazione esplicita per ogni server. Limitare le credenziali al passo di build. E trattare qualsiasi repository non redatto da sé stessi come input non fidato per l'agente, non solo per l'umano che lo legge.

Il "il giudizio resta costoso" dell'articolo 3.0 ha ora un corollario di sicurezza: anche i confini di fiducia restano costosi.

Il verdetto del senior engineer, aggiornato

La conclusione dell'articolo 3.0 era: delegare il lavoro meccanico agli agenti nei worktree, revisionare i diff puliti e mantenere stretto controllo sulle decisioni architetturali. Composer 2.5 acuisce quella conclusione invece di ribaltarla. Quando le esecuzioni degli agenti costano centesimi, la configurazione produttiva si sposta ulteriormente verso "genera molti candidati circoscritti, valuta selettivamente" — l'economia favorisce ora l'ampiezza di generazione in un modo che non faceva ad aprile.

Il dogfooding interno di Cursor è la prova del concetto. Il team riferisce che il 35% delle pull request merged internamente è ora scritto da agenti autonomi — ma all'interno di una CI solida, una cultura di code review e suite di test reali. Gli agenti lavorano all'interno del processo di sviluppo, non aggirarlo.

Quella precisazione è l'intera strategia. Dieci candidati economici sono dieci cose da revisionare, non una. Il conductor che sceglie il vincitore è esso stesso una superficie di giudizio che può sbagliare, e una selezione sbagliata fatta con sicurezza è più pericolosa di nessuna selezione. La generazione più economica rende la parte iniziale della pipeline più veloce e la parte finale più occupata.

Il vero vincolo

Composer 2.5 è la cosa più importante che Cursor abbia rilasciato dal rewrite 3.0, e cambia la matematica dei costi in modo reale e verificato indipendentemente. Non cambia la conclusione. La generazione è diventata un ordine di grandezza più economica — nel tier Standard. Il giudizio non è diventato affatto più economico. Ce n'è solo di più da fare, e un confine di fiducia più ampio su cui farlo.

Riferimenti
  1. Cursor. (2026a). Introducing Composer 2.5. cursor.com/blog/composer-2-5
  2. Artificial Analysis. (2026). Cursor's Composer 2.5: third on the Coding Agent Index and ~10–60× lower cost than rivals. artificialanalysis.ai/articles/cursor-composer-2-5-coding-agent-index
  3. Cursor. (2026b). Towards self-driving codebases. cursor.com/blog/self-driving-codebases
  4. Cursor. (2026c). Updates to Bugbot for Teams and Individuals. cursor.com/blog/may-2026-bugbot-changes
  5. Cursor. (2026d). NVIDIA commits 3× more code across 30,000 developers with Cursor. cursor.com/blog/nvidia
  6. Cursor. (2026e). Cursor named a Leader in the 2026 Gartner® Magic Quadrant™ for Enterprise AI Coding Agents. cursor.com/blog/cursor-leads-gartner-mq-2026
  7. Novee. (2026). CVE-2026-26268: How an AI Coding Agent Can Run Exploits in Cursor IDE. novee.security/blog/cursor-ide-cve-2026-26268-git-hook-arbitrary-code-execution/
  8. NVD. (2026). CVE-2026-26268 Detail. nvd.nist.gov/vuln/detail/CVE-2026-26268
  9. Anthropic. (2026). Claude API pricing. platform.claude.com/docs/en/about-claude/pricing
M
Michele Mader
Technical Leader · AI Systems & Data Engineering

Guido la direzione tecnica di prodotti dati basati su AI per clienti enterprise — definendo architetture, scegliendo lo stack tecnologico e gestendo la delivery dal roadmap alla produzione.

Connettiti su LinkedIn