Addestrare un modello AI sui tuoi dati

La macchina che fa girare benissimo un modello AI non è automaticamente quella che lo addestra sui tuoi dati. È un altro lavoro, con un altro dimensionamento.


Hai già un modello che gira in locale. Risponde, ragiona, ti fa risparmiare tempo. Poi arriva il momento in cui non ti basta più un modello generico: vuoi che parli la lingua della tua azienda, che conosca i tuoi documenti, le tue procedure, il tuo dominio. Vuoi addestrarlo sui tuoi dati. Lanci il primo tentativo di fine-tuning e la stessa macchina che faceva girare il modello senza un'incertezza si ferma: memoria esaurita.

Non hai sbagliato acquisto. Hai dimensionato la workstation per un lavoro — usare l'AI — e te ne sei trovato davanti un altro: addestrarla. Sono due attività che partono dallo stesso punto ma chiedono macchine diverse, e quasi nessuno te lo spiega prima. Questo è il punto che vogliamo chiarire qui: che cosa cambia davvero nel momento in cui passi dall'usare un modello AI all'addestrarlo sui tuoi dati, e perché la VRAM che bastava prima ora non basta più.

Usare un modello e addestrarlo sono due lavori diversi


Quando usi un modello — quello che in gergo si chiama inferenza — la macchina deve fare una cosa sola: tenere il modello in memoria e leggerlo per produrre le risposte. La VRAM serve a contenere i pesi del modello e poco altro. È un lavoro che dipende soprattutto dalla quantità di memoria e dalla velocità con cui la scheda riesce a leggerla. Per questo, quando si parla di far girare l'AI in locale, la domanda dominante è sempre la stessa: quanta VRAM ho.

Addestrare un modello — il fine-tuning — è un mestiere completamente diverso. Oltre a tenere il modello in memoria, la macchina deve calcolare come modificarlo, e per farlo deve conservare in VRAM, contemporaneamente, una serie di informazioni aggiuntive: i gradienti (di quanto va corretto ogni parametro) e gli stati dell'ottimizzatore (la memoria di come il modello sta cambiando passo dopo passo). Tutta roba che durante la semplice inferenza non esiste.

La conseguenza è un fatto tecnico su cui le fonti del settore convergono: addestrare un modello richiede tipicamente tre o quattro volte la memoria necessaria per farlo semplicemente girare — e nelle forme di addestramento più spinte il fabbisogno cresce ancora. Non è una differenza di sfumatura: è la ragione per cui una macchina perfetta per l'inferenza può rivelarsi insufficiente al primo tentativo di addestramento.

C'è anche una differenza nel tipo di sforzo. L'inferenza mette sotto pressione la memoria e la banda della scheda. L'addestramento mette sotto pressione il calcolo, e lo fa per ore, a pieno regime, senza pause. Sono due profili di stress diversi per la stessa workstation. Capire quale dei due è il tuo lavoro reale è il primo passo per non dimensionare la macchina sbagliata.

Perché addestrare in casa è una scelta strategica, non un capriccio tecnico


Prima di parlare di hardware, vale la pena di chiarire perché sempre più aziende e studi professionali vogliono addestrare i modelli in proprio invece di limitarsi a usare quelli generici. La ragione non è tecnica, è di valore.

Un modello generico sa tutto e niente del tuo lavoro. Conosce il mondo, non conosce te. Quando lo addestri sui tuoi dati — i tuoi documenti, i tuoi capitolati, le tue pratiche, il linguaggio del tuo settore — smetti di avere un assistente generalista e inizi ad avere uno strumento che parla la tua lingua. La differenza di resa, per chi lavora in un dominio specialistico, è enorme.

Ma c'è un secondo motivo, ed è quello che spinge la decisione verso il locale invece che verso il cloud: i dati su cui addestri sono i tuoi dati più sensibili. Per addestrare un modello sul cloud devi caricare il tuo materiale riservato sui server di qualcun altro. Per chi ha vincoli di riservatezza — dati sanitari, segreto professionale, proprietà industriale, informazioni personali sotto GDPR — questo è spesso semplicemente fuori discussione. Addestrare in locale significa che i dati non lasciano mai la tua rete. Nessun trasferimento, nessuna policy di conservazione di terzi, nessuna dipendenza da crediti cloud che si esauriscono.

È questa la capacità strategica che una macchina progettata per l'addestramento ti dà: poter specializzare l'AI sul tuo know-how senza mai esporlo. La workstation, in questo discorso, è lo strumento che rende possibile tutto il resto.

Dove la macchina cambia davvero


Passare dall'inferenza all'addestramento non vuol dire solo “più VRAM”. Cambia l'equilibrio dell'intera macchina. Ecco i punti dove un dimensionamento pensato per usare l'AI mostra i suoi limiti quando inizi ad addestrarla.

La VRAM, certo — ma anche la sua qualità

La quantità di memoria video resta il vincolo principale, per il fattore tre-quattro volte di cui parlavamo. Ma quando addestri entra in gioco un secondo aspetto che nell'uso quotidiano conta poco: l'integrità della memoria. Una sessione di addestramento dura ore, a volte giorni, di calcolo ininterrotto. In quel lasso di tempo un singolo errore di memoria può corrompere l'intera sessione e mandare in fumo il lavoro fatto. Per questo le schede professionali pensate per l'AI montano memoria con correzione d'errore (ECC): non serve per andare più veloce, serve perché quando il calcolo dura otto ore deve arrivare in fondo senza incidenti.

La RAM di sistema smette di essere un dettaglio

Nell'inferenza la RAM di sistema conta poco. Nell'addestramento diventa importante, ma per un motivo diverso da quello che si immagina: non è il dataset a riempirla. I dati di testo, per come vengono gestiti oggi, pesano pochissimo sulla memoria di sistema. Il peso vero arriva da altro. Da un lato i pesi del modello, che transitano dalla RAM prima di salire sulla scheda. Dall'altro, e soprattutto, i calcoli dell'addestramento veri e propri: quando la scheda video non ha memoria a sufficienza per contenerli tutti, una parte viene spostata sulla RAM di sistema, che diventa così il secondo serbatoio su cui regge l'intera sessione.

Quanta RAM serve, allora, dipende da come addestri. Con le tecniche leggere — quelle che adattano il modello senza riscriverlo da capo — può bastare attorno a una volta e mezza la memoria della scheda video. Con l'addestramento completo, dove i calcoli si moltiplicano, il fabbisogno sale a due, tre, anche quattro volte. Per questo il numero secco che si legge spesso, “il doppio della VRAM”, è una semplificazione prudente: un buon punto di partenza, non una legge valida per ogni caso. È esattamente il genere di scelta che cambia a seconda del lavoro reale che farai.

Lo storage che regge i checkpoint

Durante l'addestramento il modello viene salvato a intervalli regolari: sono i checkpoint, le fotografie del lavoro in corso che ti permettono di non ripartire da zero se qualcosa va storto. Questi file sono enormi e vengono scritti ripetutamente. Uno storage NVMe veloce e capiente non è un lusso: è ciò che evita che il salvataggio diventi il collo di bottiglia di una sessione che hai aspettato ore.

La CPU torna a contare

Per la sola inferenza la CPU è quasi una comparsa: il lavoro lo fa la scheda. Nell'addestramento, invece, la CPU prepara e organizza i dati prima che arrivino alla GPU, e quando le schede sono più di una coordina il lavoro tra loro. Una CPU sottodimensionata in una macchina per il training rischia di tenere le GPU in attesa — potenza pagata e non sfruttata.

La VRAM che serve per il fine-tuning: perché le tecniche cambiano tutto

C'è una leva che ha reso il fine-tuning accessibile anche fuori dai data center, e va conosciuta perché ribalta il discorso sulla VRAM. Tecniche come LoRA e QLoRA non riaddestrano l'intero modello: congelano il modello originale e addestrano solo piccoli “adattatori” aggiuntivi. La QLoRA, in più, comprime il modello di base a una precisione ridotta, abbattendo di gran parte la memoria necessaria per tenerlo in VRAM.

Il risultato è che modelli che con un addestramento completo richiederebbero infrastrutture da data center possono essere specializzati su una singola scheda professionale ad alta VRAM. È la ragione per cui oggi un'azienda può permettersi di addestrare l'AI sui propri dati senza un investimento da centro di calcolo.

Ma — ed è qui che serve onestà — non esiste “la macchina per il fine-tuning” in astratto. La quantità di memoria che ti serve davvero dipende da quanto è grande il modello, da quanti dati hai, dalla lunghezza del contesto e dal metodo che scegli. La stessa parola, “fine-tuning”, copre lavori che richiedono macchine lontanissime tra loro.

Tre lavori sotto la stessa parola


Per dare un'idea concreta di quanto cambia il dimensionamento a seconda del lavoro, ecco tre scenari tipici. Non sono una lista della spesa: servono a far capire perché la domanda giusta non è “qual è la workstation più potente” ma “qual è il mio lavoro reale”.

Il lavoro che faiCosa pesa davveroLa classe di macchina
Specializzare un modello di taglia contenuta sul tuo dominio, con LoRA o QLoRA, ogni tantoVRAM con ECC, RAM ampia, NVMe veloce per i checkpointUna singola GPU professionale ad alta VRAM in una workstation ben bilanciata
Addestrare regolarmente modelli più grandi, come parte stabile del tuo flusso di lavoroTanta VRAM aggregata, raffreddamento per carichi prolungati, CPU che alimenta le schedeGPU professionale di fascia alta, o più schede coordinate nello stesso sistema
Riaddestrare a fondo modelli di grandi dimensioni, in modo continuativoMemoria, banda e calcolo su scala che una singola scheda non reggeSistemi multi-GPU dedicati o soluzioni di classe server

Lo stesso verbo — addestrare — copre tre macchine che non si somigliano. Ecco perché una risposta data “a sentimento”, o copiata da una configurazione vista online, porta quasi sempre a sovradimensionare una cosa e sottodimensionarne un'altra. Se vuoi vedere da dove parte un ragionamento ben fatto, le nostre workstation professionali per l'AI nascono tutte da questa stessa domanda: qual è il lavoro reale di chi le userà.

Le domande giuste, prima dell'hardware


Quando un'azienda ci chiede una macchina per addestrare l'AI, la prima cosa che facciamo non è guardare le schede video. È capire il lavoro. Sono le stesse domande che dovresti farti tu prima di decidere qualsiasi cosa.

Quanto è grande il modello che vuoi specializzare?

È la domanda che, più di ogni altra, fissa il pavimento della VRAM necessaria. Un modello compatto e uno di grande taglia chiedono macchine di categorie diverse.

Quanti e quali dati hai per addestrarlo?

La mole e la natura del dataset incidono su storage e durata delle sessioni — e, quando i dati sono pesanti come immagini o video, anche sulla RAM. Pochi documenti ben fatti sono un lavoro; un archivio aziendale intero è un altro.

Ti basta adattarlo o devi riaddestrarlo a fondo?

Adattare un modello con tecniche leggere e riaddestrarlo in profondità sono lavori con fabbisogni di memoria distanti tra loro. La scelta del metodo cambia la macchina più di qualsiasi altra cosa.

Ogni quanto addestrerai?

Un addestramento una tantum e un ciclo continuo di aggiornamento del modello giustificano investimenti diversi. La frequenza, non solo la dimensione, determina la classe di macchina.

I dati devono restare dentro la tua rete?

Se hai vincoli normativi o di riservatezza, la risposta orienta tutto verso il locale e definisce quanto la macchina deve essere autosufficiente.

La stessa macchina dovrà anche far girare il modello in produzione?

Una macchina che addestra di giorno e serve il modello in produzione di notte ha esigenze diverse da una dedicata solo all'addestramento. Capirlo prima evita di comprare due volte.

Locale o cloud? La risposta onesta è “dipende”


Sarebbe comodo dirti che addestrare in locale è sempre la scelta migliore. Non è così, e preferiamo dirtelo. Ci sono situazioni in cui affittare potenza sul cloud per qualche ora ha perfettamente senso, e situazioni in cui una macchina in casa è l'unica risposta sensata. Capire in quale dei due casi ti trovi è parte del lavoro.

Se devi addestrare un modello una volta sola, in via sperimentale, e i tuoi dati non hanno particolari vincoli di riservatezza, il cloud è spesso più rapido ed economico: paghi le ore che usi e non immobilizzi capitale in una macchina. È il caso di chi sta solo facendo una prova, o di chi affronta un addestramento gigantesco e isolato che non si ripeterà.

La bilancia si ribalta quando ricorrono tre condizioni, anche una sola delle quali può bastare. La prima è la riservatezza: se i dati su cui addestri non possono uscire dalla tua rete, il cloud semplicemente non è un'opzione, a qualunque prezzo. La seconda è la frequenza: se addestri spesso, il costo a ore del cloud si accumula in fretta e una macchina in casa, dopo un po', si ripaga e poi lavora a costo marginale quasi nullo. La terza è la continuità: chi ha bisogno di iterare in fretta, provare e riprovare senza aspettare che si liberi una risorsa remota, lavora molto meglio con il calcolo sotto la propria scrivania.

Per la maggior parte delle aziende e degli studi che vogliono specializzare l'AI sul proprio dominio — e tornarci sopra man mano che i dati crescono — ricorrono almeno due di queste tre condizioni. È per questo che il discorso sulla macchina giusta resta centrale: non perché il locale sia un dogma, ma perché nella maggioranza dei casi reali è la risposta che regge nel tempo.

Il caso più frequente: la macchina che fa due lavori


Nella realtà di un'azienda, raramente la stessa macchina fa una cosa sola. La situazione tipica è questa: una workstation che durante il giorno serve il modello specializzato a chi lavora — inferenza — e che ogni tanto, magari di notte o nei fine settimana, viene usata per riaddestrarlo sui dati nuovi che nel frattempo si sono accumulati. Due lavori, una macchina.

È un caso che ha perfettamente senso dal punto di vista del budget, ma che va dimensionato con cura, perché i due lavori chiedono cose diverse. Una macchina pensata solo per servire il modello — ottimizzata per la banda di memoria, con RAM e storage tarati al minimo — si troverà in difficoltà il giorno in cui le chiederai di addestrare. All'opposto, una macchina sovradimensionata per un addestramento pesante che poi passa il 90% del tempo a fare semplice inferenza è potenza pagata e in gran parte ferma.

La soluzione non è un numero magico: è un equilibrio, e l'equilibrio giusto dipende da quanto pende la bilancia tra i due usi nel tuo caso specifico. Quante ore al giorno servi il modello? Quanto spesso lo riaddestri? Su dati quanto grandi? Sono queste proporzioni a definire la macchina, non la scheda video più costosa del momento. Una workstation progettata su misura nasce proprio per tenere insieme i due lavori senza sprechi e senza punti deboli.

Il punto


La macchina per usare l'AI e quella per addestrarla partono dallo stesso punto — una buona scheda, tanta memoria — e poi divergono. L'addestramento chiede più VRAM, e di qualità; chiede RAM che nell'inferenza era un dettaglio; chiede storage che regga i checkpoint e una CPU che non lasci le schede in attesa. Soprattutto, chiede di partire dal lavoro reale e non dalla scheda più potente del catalogo.

Chi parte dalle domande giuste — che modello, quanti dati, quale metodo, quali vincoli — arriva a una macchina dimensionata sul suo lavoro, che non spreca niente e non si ferma sul più bello. Chi parte dalla potenza in astratto rischia di pagare ciò che non gli serve e di scoprire troppo tardi ciò che gli mancava. È lo stesso ragionamento che facciamo quando si tratta di far girare i modelli in locale: la potenza viene dopo le domande, mai prima.

Hai bisogno di una workstation per addestrare l'AI sui tuoi dati?

Raccontaci che modello vuoi specializzare, che dati hai, quali vincoli di riservatezza devi rispettare. Un nostro esperto progetterà la workstation giusta per il tuo lavoro — dimensionata sull'addestramento che farai davvero, non su una potenza generica.

Parla con un esperto

Continua a leggere: LLM in locale: le 6 domande prima dell'hardware — il ragionamento che viene prima, quando il lavoro è far girare i modelli e non ancora addestrarli.

Scorri