Quando usi ChatGPT, Claude o Gemini e noti che rispondono in modo utile, sicuro e relativamente allineato con le tue aspettative, stai sperimentando il risultato di una tecnica di addestramento chiamata RLHF, Reinforcement Learning from Human Feedback. È uno dei contributi algoritmici più importanti dell’intelligenza artificiale degli ultimi anni, e capire come funziona ti aiuta a capire sia le capacità sia i limiti dei modelli di linguaggio che usi ogni giorno. Questa guida spiega cos’è l’RLHF, come si inserisce nel processo di addestramento dei grandi modelli, e quali sono le sue evoluzioni più recenti.
Il problema che RLHF risolve: allineare un modello alle preferenze umane
I grandi modelli di linguaggio come GPT e Claude vengono addestrati inizialmente su enormi quantità di testo con una tecnica chiamata pretraining: il modello impara a predire la parola successiva in una sequenza, processando trilioni di token di testo estratti da libri, articoli, siti web e codice. Questo addestramento produce un modello capace di generare testo coerente, ma non necessariamente utile, veritiero o sicuro. Un modello pretrainato può generare risposte accurate tanto quanto risponde con contenuti tossici, fuorvianti o semplicemente inutilmente prolissi, perché durante il pretraining non ha imparato cosa gli esseri umani trovano “buono”.
L’RLHF è la soluzione a questo problema. Invece di definire con regole esplicite cosa è una risposta buona (un compito quasi impossibile per tutte le sfumature del linguaggio naturale), si usa il giudizio umano diretto per guidare il modello verso comportamenti desiderabili. Il risultato finale è un modello che “sa” cosa gli esseri umani preferiscono, senza che questo debba essere codificato manualmente in migliaia di regole.
L’RLHF si inserisce nel percorso del machine learning come tecnica di fine-tuning post-pretraining: entra in gioco dopo che il modello ha già acquisito le sue capacità linguistiche di base e serve a “orientarlo” verso comportamenti utili e sicuri. È una delle applicazioni più sofisticate del reinforcement learning in contesti di linguaggio naturale.
Le tre fasi dell’addestramento RLHF
Il processo RLHF nella sua forma classica si divide in tre fasi distinte, ognuna con un obiettivo preciso.
Fase 1: Supervised Fine-Tuning (SFT)
La prima fase è il Supervised Fine-Tuning. Il modello pretrainato viene ulteriormente addestrato su un dataset di esempi ad alta qualità: coppie di prompt e risposte scritte o selezionate da annotatori umani addestrati. Questi annotatori scrivono risposte che considerano ideali per una varietà di prompt che rappresentano i casi d’uso tipici del modello. Questo step “orienta” il modello verso risposte del tipo che gli umani producono quando cercano di essere utili, non semplicemente verso il tipo di testo che appare più frequentemente sul web. Il risultato è un modello SFT che si comporta già meglio del modello base, ma che non ha ancora imparato a ottimizzare sistematicamente le proprie risposte rispetto alle preferenze umane.
Fase 2: addestramento del Reward Model
La seconda fase introduce un componente fondamentale: il Reward Model (RM), ovvero un modello che impara a predire quanto una risposta sarà apprezzata da un essere umano. Per addestrarlo, si raccolgono comparazioni: agli annotatori vengono mostrate due o più risposte generate dal modello SFT per lo stesso prompt e viene chiesto di indicare quale preferiscono. Da queste comparazioni, il Reward Model impara a assegnare un punteggio a qualsiasi risposta: un punteggio alto significa “gli umani troverebbero questa risposta buona”, un punteggio basso significa il contrario.
La raccolta di comparazioni, invece che di valutazioni assolute, è una scelta metodologica precisa: è molto più facile e affidabile per un annotatore dire “questa risposta è meglio di quella” che assegnare un voto da 1 a 10 in modo consistente su migliaia di esempi. Le preferenze relative sono anche più facili da scalare attraverso annotatori diversi senza perdere coerenza.
Fase 3: ottimizzazione tramite PPO
La terza fase è l’ottimizzazione vera e propria. Il modello SFT viene ora addestrato a generare risposte che ottengano punteggi alti dal Reward Model, usando un algoritmo di reinforcement learning chiamato PPO (Proximal Policy Optimization). Il processo funziona così: il modello genera una risposta, il Reward Model assegna un punteggio, e il modello riceve un “segnale di rinforzo” che lo spinge a produrre risposte simili a quella (se il punteggio è alto) o diverse (se è basso). Ripetendo questo ciclo su milioni di esempi, il modello impara progressivamente a generare risposte che ottimizzano le preferenze umane catturate dal Reward Model.
Un vincolo importante nell’ottimizzazione PPO è il KL divergence penalty: il modello viene penalizzato se si allontana troppo dal comportamento del modello SFT originale. Questo serve a prevenire il cosiddetto “reward hacking”, dove il modello impara a produrre risposte che ottengono punteggi alti dal Reward Model in modi artificiosi o degeneri (per esempio, risposte molto corte o molto vaghe che il RM non penalizza ma che sono inutili per l’utente).
Perché l’RLHF è fondamentale per la sicurezza dei modelli
L’RLHF non serve solo a rendere i modelli più utili: è uno dei meccanismi principali attraverso cui le aziende come OpenAI e Anthropic implementano le loro politiche di sicurezza. Addestrando il Reward Model su comparazioni che premiano risposte sicure e penalizzano risposte dannose, tossiche o fuorvianti, l’RLHF “incorpora” le preferenze di sicurezza direttamente nei parametri del modello.
Questo è il motivo per cui Claude, per esempio, rifiuta di aiutare a creare contenuti dannosi anche quando non c’è un sistema di filtri esplicito a bloccare la risposta: il modello ha imparato, attraverso l’RLHF, che questo tipo di risposta ottiene punteggi bassi dalla funzione di reward. La distinzione è importante: non è una lista di regole hardcoded, ma una comprensione interiorizzata delle preferenze umane riguardo alla sicurezza.
Per approfondire come questo si traduce nell’architettura tecnica dei modelli, puoi leggere la guida su come funzionano i large language model.
Le evoluzioni dell’RLHF: da PPO a DPO e Constitutional AI
Dall’introduzione dell’RLHF nella forma classica da parte di OpenAI nel 2022 con InstructGPT, la ricerca ha prodotto diverse varianti che migliorano l’efficienza o risolvono alcuni problemi della tecnica originale.
Il DPO (Direct Preference Optimization), introdotto nel 2023, semplifica notevolmente il processo eliminando la necessità di un Reward Model separato. Invece di usare PPO per ottimizzare rispetto al RM, DPO formula il problema come un task di classificazione diretta sulle preferenze umane, addestrando il modello direttamente sui dati di comparazione. Il risultato è un processo di addestramento più stabile, meno costoso computazionalmente e con meno iperparametri da ottimizzare. Molti modelli open source del 2024-2025 usano DPO invece di RLHF classico.
Il Constitutional AI (CAI), sviluppato da Anthropic, è un approccio alternativo che usa principi esplicitamente definiti (una “costituzione”) per generare feedback sintetico invece di fare affidamento esclusivamente su annotatori umani. In pratica, il modello viene addestrato a criticare le proprie risposte rispetto ai principi della costituzione e a riscriverle in modo coerente con essi. Questo riduce la dipendenza da annotazioni umane costose e permette di scalare il processo di allineamento in modo più efficiente.
Il RLAIF (Reinforcement Learning from AI Feedback) va ancora oltre, usando un modello AI più potente come supervisore invece di annotatori umani. Il modello “giudice” valuta le risposte del modello “studente” e fornisce il segnale di rinforzo. L’approccio è più scalabile degli esseri umani ma introduce la preoccupazione di amplificare i bias del modello giudice.
I limiti dell’RLHF che i ricercatori stanno cercando di risolvere
Nonostante i risultati notevoli, l’RLHF ha limiti importanti. Il più fondamentale è che ottimizza rispetto alle preferenze umane così come vengono misurate in un dataset di comparazioni, che può non catturare tutto ciò che “buono” significa in tutti i contesti. Gli annotatori hanno bias, limitazioni cognitive e una prospettiva culturale specifica: quello che trovano preferibile riflette le loro caratteristiche demografiche e geografiche, non necessariamente le preferenze di tutti gli utenti del mondo.
Il secondo limite è la difficoltà di scalare la qualità dell’annotazione. Con l’aumento della capacità dei modelli, valutare la qualità delle risposte diventa sempre più complesso: ci vuole competenza tecnica per giudicare se una risposta su programmazione avanzata o biologia molecolare è effettivamente migliore di un’altra. Questo ha spinto verso il RLAIF come alternativa scalabile, con i rischi che abbiamo visto.
Il terzo problema è il reward hacking in forme sottili. Un modello può imparare a produrre risposte che sembrano preferibili agli annotatori umani senza essere effettivamente più utili o veritiere, per esempio usando un tono più sicuro, strutturando meglio la risposta visivamente, o evitando di dire cose che potrebbero dispiacere anche quando sono vere.
Conclusioni
L’RLHF è la tecnologia che ha trasformato i grandi modelli di linguaggio da interessanti esperimenti scientifici a strumenti utilizzabili da centinaia di milioni di persone ogni giorno. Senza di esso, ChatGPT e Claude sarebbero modelli capaci ma fondamentalmente inutilizzabili nel mondo reale. Capire come funziona ti aiuta a interpretare i comportamenti dei modelli, le loro limitazioni e le scelte di design fatte dalle aziende che li sviluppano. Se vuoi approfondire la struttura tecnica completa dei modelli, il passo successivo è esplorare il deep learning e le architetture Transformer che rendono possibile tutto questo.
Intelligenza Artificiale Tutto su AI e machine learning