Claude o ChatGPT per i documenti lunghi: chi gestisce meglio il contesto?
Confronto pratico su come Claude e ChatGPT gestiscono documenti voluminosi: limiti reali della finestra di contesto, test di richiamo e strategie di prompting.
Hai un contratto da 50 pagine fermo nella cartella Download. O magari una pila di paper di ricerca da sintetizzare per un report. Incolli tutto nella tua chat AI, fai una domanda su qualcosa a pagina 37 e ricevi una risposta che suona sicura, ma che chiaramente non ha colto il punto.
Sia Claude sia ChatGPT pubblicizzano finestre di contesto enormi — centinaia di migliaia di token. Ma c'è una differenza tra quanto testo un'AI può accettare e quanto effettivamente riesce a ricordare nel momento in cui risponde. Una differenza che pesa parecchio quando lavori con documenti lunghi.
Questa guida analizza la resa reale dei due strumenti sui documenti lunghi: contratti legali, paper accademici, codebase e altro ancora. Niente fuffa di marketing — solo quello che funziona davvero.
Perché la dimensione della finestra di contesto non racconta tutta la storia
La finestra di contesto è la quantità totale di testo che un modello AI può elaborare in una singola conversazione. Si misura in token — circa 0,75 parole per token in inglese (in italiano servono più token a parità di testo). Una finestra da 200.000 token significa che, in teoria, il modello può tenere insieme circa 150.000 parole, più o meno 500 pagine.
Quello che il marketing non dice: capacità di contesto e ritenzione del contesto sono cose diverse. Un modello può accettare il tuo documento da 200 pagine, ma questo non garantisce che riesca a recuperare un dettaglio specifico a pagina 47 con la stessa precisione di una frase a pagina 1.
Pensa a leggere un romanzo tutto d'un fiato. L'inizio e la fine ti restano impressi, ma la parte centrale si sfoca. I modelli AI seguono pattern simili — e ciascuno li affronta a modo suo.
I numeri: finestre di contesto di Claude e ChatGPT nel 2026
Partiamo dalle specifiche tecniche. Questi numeri sono aggiornati a inizio 2026:
Claude (Anthropic):
Claude Sonnet 4.5: 200K token standard, fino a 1M token in beta per le aziende
Claude Opus 4.1: 200K token
Claude Haiku 4.5: 200K token
Output massimo: 64K token per risposta
Claude.ai Enterprise: finestra di contesto da 500K token
ChatGPT (OpenAI):
Piano gratuito: 8K token
ChatGPT Plus: 32K token
ChatGPT Pro/Enterprise: 128K token
API GPT-5: fino a 400K token (272K in input + 128K in output)
API GPT-4.1: fino a 1M token (ma non disponibile nell'interfaccia ChatGPT)
In pratica: con il piano a pagamento di Claude puoi incollare circa 500 pagine di testo. Con ChatGPT Plus ti fermi intorno alle 40. ChatGPT Pro ti porta più o meno a 160.
Il divario è significativo. Ma la capacità grezza è solo una parte della storia.
Il test dell'ago nel pagliaio: chi ricorda meglio?
I ricercatori usano un benchmark chiamato "Needle in a Haystack" (l'ago nel pagliaio) per misurare quanto bene i modelli AI conservano le informazioni lungo contesti estesi. Il principio è semplice: nascondere un fatto casuale (l'"ago") da qualche parte in un documento enorme (il "pagliaio") e poi chiedere al modello di recuperarlo.
Illustrazione del concetto del test ago nel pagliaio, con una frase evidenziata all'interno di un documento lungo
Il test originale usava una frase tipo "La cosa migliore da fare a San Francisco è mangiare un sandwich e sedersi al Dolores Park in una giornata di sole", sepolta in centinaia di pagine di saggi senza alcuna attinenza. Poi si chiede al modello: "Qual è la cosa migliore da fare a San Francisco?"
I risultati di Claude 3 sono stati sorprendenti. Nei test interni di Anthropic, Claude 3 Opus ha superato il 99% di accuratezza nel recupero — un richiamo praticamente perfetto, indipendentemente da dove si trovasse l'ago. In un caso famoso, Claude ha persino notato che la frase del test sembrava inserita artificialmente, intuendo di fatto di essere sotto esame.
I modelli precedenti mostravano un pattern ricorrente: le informazioni all'inizio e alla fine dei documenti venivano richiamate con precisione, mentre quelle nella parte centrale (in particolare attorno al 50-70%) venivano spesso saltate. Claude 3 e le versioni successive hanno in larga parte risolto il problema.
Le prestazioni di ChatGPT variano di più a seconda della versione del modello e della lunghezza del documento. GPT-4 mostrava problemi simili sul recupero a metà documento nei primi test, ma GPT-5 è migliorato in modo significativo. Va però detto che le finestre di contesto più piccole disponibili nell'interfaccia ChatGPT (32K per Plus, 128K per Pro) lasciano meno spazio al degrado del richiamo — semplicemente, non puoi infilarci dentro altrettanto testo.
Test sul campo: revisione di un contratto legale
I benchmark astratti sono utili, ma quello che conta è come questi strumenti si comportano nel lavoro vero. Vediamo la revisione di un contratto legale — un caso d'uso classico per l'AI applicata ai documenti lunghi.
Il compito: revisionare un contratto di locazione commerciale da 45 pagine. Trovare tutte le menzioni della risoluzione anticipata, identificare le clausole in conflitto e riassumere gli obblighi del locatore.
Con Claude: puoi incollare l'intero contratto in un colpo solo. Claude gestisce bene i rimandi incrociati — quando legge "come definito nella Sezione 4.2", riesce davvero a richiamare cosa dice quella sezione. Ha intercettato un conflitto tra gli obblighi di manutenzione della Sezione 7 e un'eccezione nascosta in un allegato. L'analisi è risultata strutturata e completa.
Con ChatGPT Plus: a 32K token, un contratto di 45 pagine non entra per intero. Devi spezzarlo in blocchi, e così l'AI perde la capacità di mettere in relazione le sezioni tra loro. ChatGPT Pro a 128K ce la fa, ma nei test ha mostrato la tendenza a produrre riassunti generici invece di cogliere conflitti specifici tra le clausole.
Vincitore per il lavoro legale: Claude. La finestra di contesto più ampia e il richiamo più affidabile tra le sezioni del documento lo rendono nettamente più utile per la revisione contrattuale, la ricerca legale e i controlli di compliance.
Test sul campo: sintesi di paper di ricerca
Il compito: sintetizzare i risultati di cinque paper accademici (circa 80 pagine in totale) sugli effetti del lavoro da remoto sulla produttività. Identificare punti di accordo, contraddizioni e lacune nella ricerca.
Con Claude: tutti e cinque i paper entrano comodamente nella finestra di contesto. Claude ha prodotto una sintesi strutturata che teneva traccia di quale affermazione veniva da quale paper, segnalava dove lo Studio A contraddiceva lo Studio C e individuava le differenze metodologiche capaci di spiegare le contraddizioni. La coerenza è stata mantenuta su tutto il corpus.
Con ChatGPT: anche con ChatGPT Pro, far entrare tutti e cinque i paper è al limite. La sintesi è risultata più generica e a volte ha confuso i risultati di paper diversi. In compenso, l'integrazione con la ricerca web di ChatGPT gli ha permesso di portare contesto aggiuntivo e studi più recenti non presenti nei paper di partenza — un vantaggio reale quando la ricerca deve essere aggiornata.
Vincitore: Claude per la sintesi pura, ChatGPT per la ricerca che ha bisogno di fonti web. Un flusso di lavoro pratico: raccogli fonti recenti con la ricerca web di ChatGPT, poi passa l'intero materiale a Claude per l'analisi approfondita.
Test sul campo: analisi di un repository di codice
Il compito: analizzare una codebase di medie dimensioni (circa 15.000 righe distribuite su 50 file) per capire il flusso di autenticazione e individuare possibili problemi di sicurezza.
Con Claude: l'intera codebase entra nel contesto. Claude ha tracciato il flusso di autenticazione attraverso più file, ha identificato dove venivano generati, salvati e validati i session token e ha segnalato un potenziale problema sui messaggi di errore troppo verbosi (che potevano lasciar trapelare informazioni utili a un attaccante). Ha capito come una modifica in un file avrebbe influenzato gli altri.
Con ChatGPT: dovresti condividere file selezionati o riassunti. ChatGPT analizza bene i singoli file, ma perde la capacità di seguire le dipendenze sull'intera codebase. Per domande mirate su funzioni specifiche se la cava bene. Per un'analisi architetturale d'insieme, fatica.
Vincitore: Claude, senza partita. Per la code review su larga scala, la finestra di contesto di Claude è un vantaggio pratico enorme. È uno dei motivi per cui ha conquistato gli sviluppatori che lavorano su progetti di grandi dimensioni.
Strategie di prompting per massimizzare la ritenzione del contesto
Indipendentemente dallo strumento che usi, alcune tecniche di prompting aiutano a ottenere risultati migliori dai documenti lunghi.
1. Metti le informazioni chiave all'inizio e alla fine. Entrambi i modelli ricordano meglio i contenuti all'inizio e alla fine del contesto. Se aggiungi istruzioni, mettile proprio all'inizio e ripeti le più critiche alla fine, subito prima della tua domanda.
2. Usa istruzioni esplicite di richiamo. Invece di chiedere "Cosa dice il contratto sulla risoluzione?", prova: "Scorri tutto il documento ed elenca ogni menzione di risoluzione, recesso anticipato o cessazione del contratto, includendo i numeri di sezione in cui ciascuna compare."
3. Chiedi un output strutturato. Richiedi le risposte in un formato preciso — bullet point con riferimenti alle sezioni, una tabella che confronta le diverse clausole o un elenco numerato. Costringi il modello a essere più sistematico nel recupero.
4. Spezza le domande complesse in passaggi. Invece di chiedere tutto in una volta, fai prima identificare al modello le sezioni rilevanti e poi affronta le domande di analisi su quelle specifiche sezioni.
Ecco un template di prompt che funziona bene per l'analisi documentale:
Stai analizzando un {{document_type}}. Il tuo compito è {{specific_task}}.
Per prima cosa, identifica tutte le sezioni rilevanti per questa analisi ed elencale con i numeri di pagina/sezione.
Poi, per ciascuna sezione rilevante, estrai le informazioni chiave e segnala eventuali conflitti o ambiguità.
Infine, fornisci una sintesi che risponda a: {{specific_questions}}
Documento:
{{document_content}}
Se ti capita di riusare prompt come questo su documenti diversi — cambiando ogni volta tipo di documento, compito e domande — un gestore di prompt come PromptNest ti dà una mano. Salvi il template una volta sola con variabili come {{document_type}} e {{specific_task}}, poi riempi i campi quando ti serve. Più veloce che riscriverlo da capo, e non rischi di perdere la struttura che funziona.
Quando usare cosa: una guida rapida alla scelta
Diagramma di flusso decisionale che mostra quando usare Claude e quando ChatGPT per le diverse attività su documenti
Scegli Claude quando:
Il documento supera le 40 pagine (il limite di ChatGPT Plus)
Devi mettere in relazione sezioni distanti tra loro
Lavori in ambito legale, compliance o contrattuale
Stai analizzando una codebase o documentazione tecnica
L'accuratezza del richiamo conta più della velocità
Scegli ChatGPT quando:
Il documento è sotto le 40 pagine e rientra nel limite del tuo piano
Devi integrare l'analisi con la ricerca web
Ti serve input/output vocale o l'analisi di immagini insieme al testo
Sei già dentro l'ecosistema OpenAI con i tuoi GPT personalizzati
Hai bisogno del piano gratuito (ChatGPT Free batte Claude Free sul contesto)
Considera entrambi quando:
Raccogli fonti e informazioni recenti con la ricerca web di ChatGPT
Fai sintesi e analisi approfondita con il contesto più ampio di Claude
Il verdetto: per i documenti lunghi vince Claude, con qualche distinguo
Per elaborare e analizzare documenti lunghi, Claude ha vantaggi netti: una finestra di contesto più ampia nel piano standard a pagamento (200K contro i 32K di ChatGPT Plus), un richiamo più solido nei benchmark e prestazioni migliori sui compiti reali come la revisione contrattuale e l'analisi del codice.
La differenza si fa ancora più evidente confrontando i piani in abbonamento. I 200K token di Claude Pro contro i 32K di ChatGPT Plus sono 6 volte la capacità pratica. Per pareggiare l'offerta standard di Claude ti servirebbe ChatGPT Enterprise.
Detto questo, ChatGPT ha i suoi punti forti. L'ecosistema è più maturo — GPT personalizzati, plugin, navigazione web, generazione di immagini e voce funzionano tutti insieme senza attriti. Se il tuo flusso di lavoro mette insieme documenti più brevi, ricerca sul web o compiti multimodali, ChatGPT può comunque restare la scelta migliore.
Il succo pratico: se il lavoro su documenti lunghi è una parte fissa della tua giornata — revisione legale, sintesi di ricerca, analisi del codice, stesura di policy — vale la pena provare Claude. Il vantaggio sulla finestra di contesto è reale e si nota nella qualità dell'output.
Una volta trovati i prompt che funzionano meglio per il tuo flusso di analisi documentale, non lasciarli sparire nella cronologia delle chat. Che tu rimanga su un solo strumento o ne usi due, tenere i prompt migliori organizzati e riutilizzabili ti fa risparmiare tempo a ogni nuovo progetto. PromptNest è un'app nativa per Mac, $19.99 una tantum sul Mac App Store — niente abbonamento, niente account, gira in locale. Dà ai tuoi prompt una casa stabile — organizzati per progetto, ricercabili e raggiungibili con una scorciatoia da tastiera da qualsiasi applicazione.