VRAM per ComfyUI: perché non basta a dimensionare la workstation

Perché la VRAM è solo il primo strato del ragionamento, e non l’ultimo


Hai avviato un workflow la sera, sperando di trovare il batch completo la mattina dopo. Torni in studio, ti siedi, e la prima cosa che vedi è un messaggio rosso a metà della coda: CUDA out of memory. Oppure gira, ma ci mette quindici minuti per un’immagine che un collega con una macchina più seria tira fuori in due. Oppure funziona, sì, ma solo se rinunci al ControlNet, al secondo LoRA, all’upscaling finale.

Se ti riconosci in una di queste scene, la notizia non è che ComfyUI ha un problema. Il problema è che hai una workstation sottodimensionata per il lavoro che stai cercando di farci fare. E finché non lo metti a fuoco così, continuerai a cercare la colpa in un modello, in un settaggio, in un nodo che non va — quando il punto è da un’altra parte.

In questo articolo non trovi configurazioni consigliate né numeri magici di VRAM. Trovi un modo di ragionare che ti mette nelle condizioni di scegliere — o di capire chi ti sta consigliando bene e chi no. Perché lavorare sul serio con l’AI generativa in locale è una questione di workstation, non di scheda video.

Preferisci il formato video? Abbiamo raccontato il ragionamento qui in tre minuti e mezzo.

Cosa cambia davvero tra “provare ComfyUI” e “lavorarci”


La prima confusione nasce qui, e vale la pena risolverla subito. Perché le indicazioni che trovi sui forum, sui gruppi Facebook e sotto i video di YouTube sono quasi sempre basate su un uso che non è il tuo.

Il tutorial gira un workflow lineare. Carichi il modello, scrivi il prompt, generi l’immagine. Funziona su quasi tutto — una scheda video consumer di fascia media regge benissimo la demo. Il ragazzo che ti ha fatto vedere il tutorial ha lavorato così, si è trovato bene, ha detto “ci vogliono dodici gigabyte di VRAM” e ha pubblicato il video.

Il workflow professionale è un’altra cosa. È un grafo complesso: un modello base, due o tre ControlNet attivi contemporaneamente, diversi LoRA, un IPAdapter per la coerenza del soggetto, un primo passaggio di generazione, un refiner, un upscaling in catena, spesso un post-processing con un modello diverso. Non è una serie di immagini singole — è un batch che gira mentre tu lavori su altro. Non sono tre modelli caricati in un pomeriggio — sono venti, trenta, cinquanta file tra checkpoint, LoRA e VAE che devono essere disponibili senza attesa, perché il tempo di caricamento è tempo sottratto alla consegna.

La differenza, tradotta in hardware, è un fattore cinque. Chi valuta la workstation guardando il tutorial sta sottodimensionando la macchina di un ordine di grandezza rispetto al lavoro reale. Ed è per questo che tanti professionisti, dopo sei mesi dall’acquisto, si ritrovano a fare i conti con il messaggio in rosso a metà batch.

La VRAM: raccontata per workflow, non per numeri


La VRAM è lo spazio di lavoro della GPU. Contiene il modello caricato, le immagini latenti durante la generazione, tutti gli strumenti attivi — ciascuno di questi elementi aggiunge peso. Quando lo spazio finisce, possono succedere due cose: o il sistema si ferma con un errore esplicito, o si arrangia scaricando parti del modello sulla RAM di sistema, con un crollo drastico delle prestazioni. In entrambi i casi, il lavoro ne esce compromesso — non è una gradazione, è un muro contro cui il workflow sbatte.

Per questo non ti do numeri di riferimento da tenere a mente. I numeri cambiano ogni tre mesi, dipendono dal modello, dal workflow, dalle combinazioni di strumenti che usi, dalle versioni del software. Ti do invece le famiglie di workflow e il loro ordine di grandezza in termini di richiesta hardware — che è l’unica cosa che ti serve per ragionare bene.

Le quattro famiglie di workflow che definiscono la tua workstation

SDXL con lavoro lineare

È la soglia di ingresso. Un modello SDXL, un prompt, una generazione, al massimo un refiner. Gira anche su schede consumer di fascia media, con margini ridotti ma sufficienti. È il territorio dove il tutorial di YouTube funziona davvero. Se il tuo lavoro si ferma qui, probabilmente non stai leggendo questo articolo.

SDXL con ControlNet, LoRA multipli e rifinitura

Qui inizia a contare seriamente il dimensionamento della GPU. Con schede consumer di fascia media si entra nel territorio dei compromessi necessari; con le consumer top attuali si lavora con margine. Ogni ControlNet aggiunge peso, ogni LoRA attivo occupa spazio, il refiner moltiplica la richiesta per due passaggi. È lo scenario in cui la workstation deve essere pensata bene, ma non è qui che il sistema si rompe.

Flux in precisione piena

Flux ha due generazioni, e si comportano diversamente. Flux.1 Dev in precisione piena occupa quanto basta per entrare nelle schede consumer top di oggi con margine utile — chi è sotto la fascia top deve comunque ricorrere alle versioni quantizzate. Flux.2 Dev, più recente e con un numero di parametri molto maggiore, non sta in precisione piena neanche sulle consumer top: qui la quantizzazione diventa obbligatoria anche sulle configurazioni più spinte del mercato consumer, oppure si va su GPU di categoria professionale. La scelta tra queste due generazioni di Flux è una scelta di workflow, non solo di modello.

Video generation: Wan, Hunyuan, LTX

È una categoria completamente diversa. La generazione video non è “AI art un po’ più pesante” — è un altro mestiere, con richieste hardware che fanno sembrare i workflow di immagini una passeggiata. I modelli più leggeri — le varianti compatte di Wan, HunyuanVideo nelle versioni recenti ottimizzate, i modelli distillati — girano anche su schede consumer di fascia media con offloading aggressivo, utili per prototipazione e test. Per i modelli seri, quelli da molti miliardi di parametri in precisione piena a 720p, la richiesta di VRAM esce completamente dal mercato consumer: si entra nel territorio delle GPU professionali.

Le tecniche di quantizzazione più aggressive — GGUF Q4, FP8, NVFP4 nativo sulle nuove schede Blackwell — rendono possibile l’utilizzo dei modelli video anche sulle consumer top, ma con compromessi concreti su qualità, coerenza temporale e con un supporto software ancora in stabilizzazione. Qui più che altrove il discrimine non è “ci sta o non ci sta”, ma “a che livello di qualità lo stai facendo girare, e quei compromessi sono compatibili con quello che consegni al cliente?”

C’è poi il tema della quantizzazione, che merita di essere raccontato per quello che è. Quantizzare un modello significa farlo stare in meno VRAM a costo di qualità, velocità o coerenza. È una soluzione ingegneristica, non magica. Esistono tecniche molto sofisticate che rendono la perdita accettabile in molti contesti, ma la parola chiave è “accettabile” — e dipende da cosa stai consegnando.

La domanda giusta non è “funziona?”. La domanda giusta è “funziona abbastanza bene da poterlo consegnare a un cliente che paga?”. Se stai sperimentando, la risposta può anche essere sì con un modello quantizzato aggressivamente. Se stai lavorando su un brief editoriale, una campagna, una serie commerciale — la risposta cambia. E se la workstation ti costringe a quantizzare tutto perché non c’è margine, stai pagando ogni giorno, in qualità dei consegnati, un risparmio che avevi fatto all’acquisto.

Il numero magico di VRAM non esiste. Esiste il tuo workflow reale — quello che fai quando stai lavorando, non quello del tutorial — e la VRAM che gli serve per girare senza compromessi che non puoi permetterti.

Sopra il consumer: quando il tetto della scheda top non basta più


Fino ad ora abbiamo ragionato sul mondo consumer, perché è lì che la maggior parte dei professionisti si confronta per la prima volta con l’AI locale. Ma c’è un piano sopra, ed è giusto conoscerlo — perché capita sempre più spesso che emerga come passaggio naturale.

Quando la scheda top di gamma consumer diventa il collo di bottiglia — tipicamente con i modelli video professionali in qualità piena, con il fine-tuning di LLM locali, con Flux.2 Dev in precisione nativa, con workflow multipli che girano in parallelo — il passo successivo non è “una scheda consumer più grossa”, perché sopra non c’è più nulla. Il passo successivo è un’altra categoria: le schede professionali NVIDIA RTX Pro Blackwell, pensate esplicitamente per workstation di fascia alta. Hanno capacità di memoria che partono dal doppio della consumer top di oggi e arrivano al triplo, con memoria ECC per l’integrità dei dati nei calcoli lunghi e driver certificati per uso professionale continuativo.

Oppure c’è la strada della configurazione multi-GPU, che a seconda di come viene progettata può raddoppiare la potenza di calcolo, moltiplicare l’inference su task paralleli, o servire carichi di lavoro in contemporanea. Non è una scelta banale, e qui va detta una cosa che chi non lo ha mai fatto spesso non sa: sulle schede consumer la VRAM di due GPU non si somma automaticamente per far girare un singolo modello oversize, come succederebbe in datacenter. Funziona bene per task paralleli, per inference multipla, per workflow distribuiti — ma non è la scorciatoia che molti immaginano. Le configurazioni multi-GPU in una workstation hanno implicazioni di alimentazione, dissipazione, bilanciamento del software e compatibilità con i singoli workflow che possono rendere la resa molto diversa da quella che ci si aspetta dai numeri sommati.

Quale di questi passaggi abbia senso per te dipende da cosa stai facendo, in che volumi, con che prospettiva di crescita. Ed è lì che il discorso smette di essere tecnico e diventa di dimensionamento.

Perché non è solo la GPU: il collo di bottiglia che pochi raccontano


Qui il ragionamento fa il salto che la maggior parte dei contenuti in rete non fa. Quasi tutti si fermano alla GPU, come se una workstation per l’AI fosse una scheda video con qualcosa intorno. Non lo è. Una workstation è un sistema bilanciato, e in ComfyUI ci sono almeno tre colli di bottiglia nascosti oltre alla VRAM.

Il primo è la RAM di sistema. Quando ComfyUI lavora con modelli pesanti e la VRAM non basta, scarica porzioni del modello sulla RAM — è il meccanismo dell’offloading. Se la RAM di sistema è sottodimensionata, o se è troppo lenta, il workflow rallenta drasticamente o si blocca. Ne abbiamo già parlato nell’articolo su quanta RAM serve davvero in una workstation, e il discorso che facevamo lì vale integralmente anche qui: la RAM non è un contorno della GPU, è un secondo spazio di lavoro che lavora in tandem con la VRAM. I due numeri vanno letti insieme.

Il secondo è lo storage. Un modello Flux può pesare oltre venti gigabyte. Un checkpoint SDXL fine-tuned arriva facilmente a sei o sette gigabyte. Una libreria professionale di modelli, LoRA e VAE occupa centinaia di gigabyte. Se lavori cambiando modello nel mezzo di un workflow, se gestisci una libreria ampia, se fai model switching dentro un grafo complesso, la velocità di storage diventa il collo di bottiglia invisibile. Su un SSD lento, l’attesa per caricare un modello non è un dettaglio — è una parte significativa della tua giornata. Su un NVMe di qualità, quella stessa attesa scompare.

Il terzo è la CPU. ComfyUI non è solo GPU. Molti nodi di preparazione, decodifica e post-processing girano su CPU. La decodifica dei latenti, il ridimensionamento delle immagini, la preparazione delle maschere, le operazioni sui tensori non delegate alla GPU. Una CPU sottodimensionata rallenta tutto il grafo anche con la scheda video più potente — perché tra un nodo GPU e l’altro c’è sempre qualcosa che lavora sul processore, e se il processore è lento, la GPU aspetta.

E poi c’è tutto quello che in una workstation non è “di scelta” ma è “di assemblaggio”: l’alimentatore dimensionato correttamente per reggere i picchi di una GPU sotto carico continuativo, la dissipazione capace di tenere la scheda video in regime termico anche dopo sei ore di rendering di fila, la ventilazione del case che evita il throttling estivo. Sono cose che nessun configuratore online ti racconta, e sono esattamente quelle che fanno la differenza tra una macchina che “sulla carta sembra uguale” e una macchina che lavora stabile per anni.

Una workstation per AI locale è un sistema bilanciato. Chi ti vende la GPU più grande senza chiederti quanta RAM ti serve, quale storage, quale CPU, quale alimentatore — ti sta vendendo un pezzo, non una soluzione.

Perché lavorare in locale, quando c’è il cloud


È la domanda che prima o poi si fa chiunque guardi il prezzo di una workstation seria. Perché mettere una cifra importante in una macchina quando RunPod, Replicate o il servizio cloud di turno ti danno accesso a GPU professionali a ore?

Ci sono quattro risposte, e riguardano tutte il professionista — non l’hobbista che prova ComfyUI un’ora alla settimana.

Controllo e privacy dei dati. Chi lavora per clienti in ambiti sensibili non può caricare quei dati su un server di cui non ha controllo. Moda non ancora pubblicata, brief riservati coperti da NDA, volti di persone reali, immagini di prodotto in preview, progetti per brand che tengono alla confidenzialità. È una questione legale e contrattuale, non di preferenza. Se firmi un accordo di riservatezza, il cloud pubblico spesso non è un’opzione a prescindere dal suo costo.

Costi reali a regime. Il cloud conviene sulla carta, ma la matematica cambia quando la usi sul serio. Il costo orario moltiplicato per le ore reali di un professionista che lavora quotidianamente con l’AI supera rapidamente il costo di una workstation — spesso nel giro di pochi mesi. E il costo del cloud è una spesa operativa ricorrente, mentre la workstation è un asset che si ammortizza fiscalmente e continua a lavorare per anni. Su molti clienti che si appoggiano al cloud, il commercialista fa due conti e alza la cornetta per chiedere se c’è alternativa.

Latenza e iterazione. Il lavoro creativo con l’AI è iterativo per natura. Generi, valuti, aggiusti il prompt o i parametri, rigeneri. Decine di volte al giorno. La latenza del cloud — tempo di caricamento dei modelli, tempo di rete, code condivise con altri utenti quando le risorse sono sotto pressione — rompe il ritmo di lavoro. In locale l’iterazione è immediata, e la differenza tra immediato e “quasi immediato” è la differenza tra un flusso creativo e uno stop-and-go che ti fa perdere il filo.

Personalizzazione totale. ComfyUI in locale ti permette librerie di modelli personali, LoRA proprietari addestrati sui tuoi asset, custom node sviluppati per le tue esigenze, integrazioni con il resto del tuo flusso di produzione. Ambienti cloud condivisi pongono limiti che un professionista finisce sempre per sbattere — o richiedono piani dedicati che erodono ulteriormente il vantaggio economico.

Il cloud è una scelta di convenienza. Il locale è una scelta di controllo. Per chi ha costruito o sta costruendo una professione sull’AI generativa, il controllo non è un optional — è la base su cui poggia tutto il resto.

Il punto a cui si arriva


Capire quanta VRAM serve è il primo strato del ragionamento. Dietro c’è la RAM di sistema — ne abbiamo parlato in un altro articolo, e le due cose vanno lette insieme. C’è lo storage che gestisce la tua libreria di modelli senza farti perdere tempo a ogni caricamento. C’è la CPU che lavora in silenzio mentre tu guardi solo la GPU. C’è la scelta tra una scheda consumer top, una professionale o una configurazione multi-GPU, che cambia a seconda di cosa stai provando a fare. C’è l’assemblaggio che tiene insieme tutto questo senza colli di bottiglia nascosti e senza compromessi termici che si pagano al terzo batch.

Tradurre un workflow reale di ComfyUI in una workstation che lo regga per anni — senza rinunce che finirai per pagare sui consegnati al cliente — è il tipo di conversazione che facciamo ogni giorno con chi lavora seriamente con l’AI generativa. È una chiamata per capire insieme come lavori, cosa stai cercando di far crescere, e costruire da lì.

Parla con un esperto del tuo workflow AI

Raccontaci come lavori con ComfyUI, quali modelli usi e con che frequenza e costruiamo insieme la workstation che regge il tuo lavoro reale.

Richiedi la consulenza gratuita

oppure chiamaci allo 06 82002354

Pubblicato in: Workstation
Scorri