Cos’è il Cross Entropy?
È una metrica che confronta due distribuzioni di probabilità. In pratica, misura quanto la previsione di un modello si discosta dalla realtà.
Perché è così importante?
Quando addestri una rete neurale, il tuo obiettivo è ridurre l’errore. Il cross‑entropy serve a quantificare quell’errore in termini probabilistici, rendendo più facile capire dove il modello sbaglia.
Immagina di dover classificare un'immagine come gatto o cane. Se la rete assegna 0,9 di probabilità al gatto e l’immagine è davvero un cane, il valore del cross‑entropy sarà alto: il modello ha fatto una previsione distante dalla verità.
Il calcolo in pratica
La formula base è -∑ y_i log(p_i), dove y_i è la vera etichetta (1 o 0) e p_i la probabilità predetta. Quando la previsione è vicina alla verità, il termine logaritmico diventa vicino a zero, quindi l’errore diminuisce.
Quando si usa
- Classificazione binaria: due classi, ad esempio spam o no‑spam.
- Multi‑classe: più di due categorie, come riconoscimento facciale.
In entrambi i casi, il cross‑entropy è la scelta dominante perché gestisce bene le probabilità e fornisce gradienti stabili per l’ottimizzazione.
L’impatto sul training
Durante l’addestramento, la backpropagation utilizza il gradiente del cross‑entropy. Se il valore è basso, i pesi della rete si adattano lentamente; se alto, le correzioni sono più marcate. Questo equilibrio permette di raggiungere convergenza in meno epoche.
Limiti e alternative
Il cross‑entropy può soffrire di vanishing gradient quando la previsione è quasi certa ma errata. In questi casi, si ricorre a funzioni come Hinge loss o focal loss per migliorare l’addestramento in presenza di classi sbilanciate.
Conclusioni non convenzionali
Il cross‑entropy non è solo una formula matematica: è la bussola che guida i modelli verso decisioni più accurate. Se vuoi costruire sistemi AI affidabili, comprendere e sfruttare questa metrica è un passo fondamentale.