- “6× più efficiente di Claude” è una cifra di marketing — non confermata in modo indipendente. Il trend di efficienza dei modelli cinesi (DeepSeek, Kimi, Qwen, GLM) è invece reale.
- Lo spiegano due leve: mixture-of-experts (per richiesta è attiva solo una frazione dei parametri) e sparse attention (riduce i costi soprattutto sui contesti lunghi).
- Efficienza non significa qualità di punta: sui compiti più difficili modelli come Claude restano in testa — anche se il divario si riduce.
- Per le PMI non conta il benchmark, ma il costo totale, la residenza dei dati, l’EU AI Act, l’opzione di self-hosting (open-weight) e il supporto. Di solito la risposta è un portafoglio di modelli, non un cambio totale.
I titoli sull’efficienza funzionano perché toccano una preoccupazione reale: l’AI può diventare costosa e a nessuno piace pagare il doppio per lo stesso risultato. “6× più efficiente di Claude” promette esattamente questo — sei volte tanto per i tuoi soldi. Prima di agire, conviene uno sguardo sobrio: cosa è stato misurato, cosa è stato affermato e cosa significa concretamente per un’azienda che con l’AI vuole guadagnare o ridurre i costi.
Cosa significa davvero “6× più efficiente”
“Efficienza” non è un valore unico, ma almeno tre cose diverse — ed è proprio da qui che nascono i numeri a effetto:
- Costo per token. Quanto costa un’unità di testo elaborata? Qui i modelli cinesi open-weight sono spesso effettivamente molto più economici.
- Calcolo per risposta. Quanto tempo GPU/energia richiede una richiesta? È il cuore tecnico della storia dell’efficienza.
- Qualità per euro. Quella decisiva — e scomoda: un modello metà buono ma a un sesto del prezzo non è automaticamente “più efficiente” per il tuo caso d’uso.
Il verdetto onesto: una cifra precisa “6× rispetto a Claude” non è stabilita in modo indipendente. Ciò che si può mostrare con chiarezza sono i meccanismi con cui questi modelli riducono il calcolo. Ed è quella la vera notizia.
Le due leve dietro l’efficienza
Leva 1: mixture-of-experts (MoE). I modelli classici attivano tutti i parametri per ogni richiesta. I modelli MoE suddividono la rete in molti “esperti” e ne attivano solo alcuni per richiesta. DeepSeek, ad esempio, attiva solo circa 37 dei 671 miliardi di parametri per richiesta. Il modello “sa” quanto uno enorme ma calcola come uno piccolo — riducendo il calcolo di molte volte rispetto a un modello classico (“dense”) altrettanto grande.
Leva 2: sparse attention. Il secondo fattore di costo nei modelli linguistici è il meccanismo di “attention”, che mette in relazione ogni porzione di testo con ogni altra — il suo costo cresce più che proporzionalmente con la lunghezza del testo. L’approccio di DeepSeek (“DeepSeek Sparse Attention”) non calcola più ogni relazione, ma solo quelle rilevanti. Questo riduce i costi soprattutto sui contesti lunghi — proprio dove l’AI aziendale lavora con documenti, fascicoli o codebase di grandi dimensioni.
Entrambe le leve insieme — più una politica di prezzo aggressiva — costituiscono la storia dell’efficienza. Nessuna è “magia” e nessuna è esclusivamente cinese; anche i fornitori occidentali usano MoE. Ma i laboratori cinesi spingono molto e di solito rilasciano i loro modelli come open weight.
DeepSeek, Kimi, Qwen, GLM: chi è la “AI cinese” nel 2026
Dietro il titolo generico non c’è un singolo modello, ma un intero campo:
- DeepSeek — l’apripista dell’efficienza. V3.2 ha introdotto la sparse attention; ad aprile 2026 è arrivata la serie V4 con un grande V4 Pro (circa 1,6 mila miliardi di parametri) e uno snello, molto economico V4 Flash (circa 284 miliardi). Entrambi open-weight.
- Kimi (Moonshot), Qwen (Alibaba), GLM (Zhipu) — tutti modelli MoE potenti e disponibili apertamente, con i propri punti di forza a seconda del compito e della lingua.
Lo schema comune: alte prestazioni, costi bassi, pesi aperti. È proprio questa combinazione a renderli interessanti per le PMI — e a sollevare la domanda decisiva.
Efficienza non significa “la migliore AI”
La verità scomoda dietro ogni titolo sull’efficienza: più economico non significa migliore. Sui carichi standard — classificazione, estrazione, testi standard, semplici richieste — i modelli efficienti offrono spesso risultati praticamente equivalenti a una frazione del costo. Sui compiti più difficili — esecuzioni autonome di agenti di più ore, ragionamento complesso, migrazioni di codice impegnative — i modelli di punta occidentali come Claude restano in testa. Il divario si sta chiudendo, ma nel 2026 c’è ancora.
In pratica: la domanda non è “cinese o occidentale” ma “quale carico richiede quale modello”. Il contrappeso — il costoso modello di punta — è trattato nella nostra analisi su Claude Fable 5 per le PMI, e il quadro più ampio nella nostra panoramica sull’AI nelle PMI.
Il problema per le PMI: la residenza dei dati
Qui la cosa si fa seria per le aziende a conduzione familiare. Se usi l’API ufficiale di un fornitore cinese, i tuoi dati lasciano l’UE e vengono elaborati su server fuori dalla giurisdizione europea. Per dati di pazienti, corrispondenza con i clienti o documenti di strategia interni, nella maggior parte dei casi è un criterio di esclusione — indipendentemente da quanto sia economico il modello.
A ciò si aggiunge il quadro normativo: l’EU AI Act è in vigore da agosto 2024 e diventa pienamente applicabile per la maggior parte degli obblighi il 2 agosto 2026. Governance dei dati, trasparenza e documentazione valgono a prescindere dal Paese di origine del modello.
L’opportunità: open-weight significa self-hosting
È qui che la storia cambia. Poiché DeepSeek & co. pubblicano i loro pesi apertamente, non sei legato all’API cinese. Gli stessi modelli possono girare presso un host UE o — a seconda di dimensioni e hardware — in locale, in casa. Allora ottieni la stessa efficienza, gli stessi costi bassi, ma i dati restano sotto il tuo controllo.
Quale hardware basti realisticamente, quando il funzionamento locale convenga e dove siano i limiti, lo analizziamo nella nostra panoramica sull’AI nelle PMI. La domanda di fondo “gestire un modello proprio o acquistare un’API commerciale” va affrontata con consapevolezza prima di impegnarsi.
Cosa dovrebbero fare ora le PMI
Tre principi:
- Leggi i titoli sull’efficienza come un segnale, non come un ordine. “6× più efficiente” non è un motivo per rifare l’intero impianto di AI — ma un buon pretesto per rivedere i costi e le scelte di modello.
- Decidi in base al carico, non all’origine. Modelli efficienti ed economici per volume e routine, modelli di punta per i compiti più difficili. Un portafoglio di modelli riduce spesso i costi di oltre la metà senza intaccare la qualità dove conta.
- Chiarisci prima la residenza dei dati. Prima che un modello cinese vada in produzione: eseguilo via hosting UE o self-hosting locale, non via API cinese con dati sensibili.
Il filo conduttore che vediamo in ognuno di questi dibattiti sui modelli: il vantaggio non sta nel seguire l’ultimo video “il modello X batte il modello Y”, ma in un’architettura sobria — quale carico va su quale modello e dove i dati possono essere elaborati.
Fonti e contesto
Inquadramento tecnico (mixture-of-experts, sparse attention / DeepSeek Sparse Attention) e dati dei modelli (DeepSeek V3.2, la serie V4 con V4 Pro e V4 Flash, lancio aprile 2026; Kimi, Qwen, GLM) secondo report pubblici di fornitori e di settore, aggiornati a giugno 2026. La “efficienza 6× rispetto a Claude” citata nel video è un’affermazione di marketing esagerata e non verificata in modo indipendente; i meccanismi di efficienza sottostanti sono dimostrabili, il fattore esatto no. Riferimento EU AI Act: Regolamento (UE) 2024/1689, piena applicabilità per la maggior parte degli obblighi dal 2 agosto 2026. Il video YouTube serve solo da spunto; le affermazioni si basano sulle fonti primarie, non sul video.
Domande frequenti sui modelli di AI cinesi
Quale modello di AI cinese è “6× più efficiente di Claude”?
Il titolo si riferisce soprattutto alla famiglia DeepSeek (V3.2 con sparse attention e, da aprile 2026, la serie V4 con V4 Pro e V4 Flash). La cifra esatta “6×” è un’affermazione di marketing e non è verificata in modo indipendente. È invece ben documentato che mixture-of-experts e sparse attention riducono nettamente il costo di inferenza.
L’AI cinese è migliore di Claude?
Sul rapporto prezzo/efficienza, spesso sì. Sui compiti di ragionamento e agentici più difficili, i modelli di punta occidentali come Claude restano in testa — anche se il divario si riduce trimestre dopo trimestre.
Le PMI possono usare i modelli di AI cinesi?
Tecnicamente sì. Il punto chiave è la residenza dei dati: tramite l’API cinese ufficiale, i dati lasciano l’UE. Ma poiché questi modelli sono open-weight, possono essere eseguiti anche presso un host UE o in locale — il che disinnesca il problema della protezione dei dati.
Cosa significa per i miei costi di AI?
Modelli più efficienti possono ridurre i costi in modo significativo — ma solo dove qualità, protezione dei dati e supporto sono adeguati. Un portafoglio di modelli con instradamento dei carichi batte un cambio di modello generalizzato.
Un modello più efficiente potrebbe ridurre i tuoi costi — senza rischi per i dati?
In una discovery call esaminiamo i tuoi carichi di lavoro, il volume e la sensibilità dei dati e ti diciamo onestamente dove un modello efficiente ed economico è adatto, dove serve un modello di punta e come mantenere pulita la protezione dei dati. Quattro occhi, trenta minuti, niente slide.