5 aprile 2026 3 min read Any AI Studio

Reasoning model nel 2026: quando l'extended thinking ripaga davvero

Opus thinking, GPT-5.4 Mini, DeepSeek R1 — tre interpretazioni dello stesso concetto. Abbiamo tracciato quali problemi diventano più nitidi con più compute e quali solo più lenti.

reasoning
modelli
benchmark

I reasoning model hanno smesso di essere una novità circa un anno fa. Ora sono parte del catalogo — Opus 4.7 ha extended thinking, GPT-5.4 Mini è reasoning di default, DeepSeek R1 è open ed economico. Quindi la domanda interessante non è funzionano, è quando vale la latenza extra.

Tracciamo internamente questa domanda da qualche mese. Ecco cosa dicono i dati e l’istinto.

Cosa compra davvero il «reasoning»

Quando diciamo che un modello fa reasoning, intendiamo che gli è permesso spendere più token prima di produrre una risposta — una catena di pensiero privata che di solito non vedi. Più token significa più possibilità di catturare un errore, più chance di considerare un’alternativa, più compute puntato sul problema.

Quel compute extra aiuta molto su alcuni problemi e quasi niente su altri. Il pattern è piuttosto costante:

Problemi multi-step con check intermedi (dimostrazioni matematiche, refactor di codice che tocca più file, task di planning): il reasoning vince.
Problemi single-step in cui la risposta giusta è a un’inferenza di distanza (riassumi questa mail, riscrivi questa frase, qual è la capitale della Mongolia): il reasoning spreca tempo e soldi.
Problemi creativi dove non c’è una risposta giusta verificabile (scrivi una poesia, abbozza un’opinione, brainstorm di nomi): il reasoning spesso peggiora le cose. La deliberazione extra appiattisce la voce.

Il tradeoff sulla latenza è reale

Un modello non-reasoning ti risponde in 2–8 secondi. Un reasoning model ci mette 15–90 secondi, a volte di più. È un rallentamento 5–15× che ti mangi a ogni turno.

Per il 20% dei prompt dove il reasoning cambia davvero la risposta, ne vale la pena — quei prompt comunque ti prendevano quattro messaggi di follow-up, e preferisci spendere il wall-clock una volta sola che quattro. Per l’80% dove non lo cambia, ora aspetti un minuto per una risposta che avresti accettato in cinque secondi.

È la parte che le leaderboard non catturano. «Il modello X fa 4 punti in più sul benchmark Y» è vero e anche noioso se ci ha messo otto volte tanto per arrivarci. La metrica giusta è utilità per secondo, e su quell’asse il quadro è molto più ravvicinato.

Come lo esponiamo

Nello studio non scegli «reasoning» o «non-reasoning» — scegli un modello, e il reasoning è un toggle su quelli che lo supportano. Il toggle è visibile (Cmd+Shift+R), e l’anteprima del costo ti dice quanto costerà il turno in crediti prima di inviare.

Comportamento di default:

Opus 4.7, GPT-5.5: thinking off di default. Toggle on per problemi difficili.
GPT-5.4 Mini, R1: thinking on di default. Questi modelli sono la versione reasoning.
Haiku 4.5, Gemini Flash, Nano: niente thinking mode, by design.

Se hai la memoria attiva, lo studio impara quando tendi a girare il toggle e te lo suggerisce prima la volta successiva che apri un thread simile.

L’argomento per tenere un modello veloce accanto

Anche se usi solo reasoning model, probabilmente vuoi un modello veloce non-reasoning sulla stessa scorciatoia. Cmd+Shift+M e un tasto devono farti scendere da Opus thinking a Haiku 4.5 per il prossimo messaggio. Abbiamo testato senza quella scorciatoia per una settimana e l’attrito si sente subito — smetti di iterare, perché ogni iterazione ti costa un minuto.

Il pattern più efficiente che abbiamo trovato, di gran lunga, è:

Parti con un reasoning model sul problema difficile.
Scendi a un modello veloce per follow-up, edit e riformulazioni.
Torna su al reasoning solo quando cambi direzione in modo sostanziale.

Cosa non pensiamo

Due cose che sentiamo spesso e che non pensiamo siano vere:

«I reasoning model sostituiranno i non-reasoning». No. Il pavimento di latenza è fondamentale — non puoi accorciare la catena di pensiero senza renderla più stupida. Ci sarà un tier veloce finché ci sarà un tier difficile.

«I reasoning model sono più intelligenti su tutto». No. Sono più intelligenti su problemi con step intermedi verificabili, e all’incirca uguali su tutto il resto. Il gap dei benchmark sulla scrittura creativa nel 2026 è praticamente zero.

Quindi: ragiona quando il problema è difficile. Non quando non lo è. Lo studio mette il toggle a un tasto per un motivo.

Hai trovato un refuso o vuoi dissentire? Scrivici .