Cos’è il Cross Entropy?

È una metrica che confronta due distribuzioni di probabilità. In pratica, misura quanto la previsione di un modello si discosta dalla realtà.

Perché è così importante?

Quando addestri una rete neurale, il tuo obiettivo è ridurre l’errore. Il cross‑entropy serve a quantificare quell’errore in termini probabilistici, rendendo più facile capire dove il modello sbaglia.

Immagina di dover classificare un'immagine come gatto o cane. Se la rete assegna 0,9 di probabilità al gatto e l’immagine è davvero un cane, il valore del cross‑entropy sarà alto: il modello ha fatto una previsione distante dalla verità.

Il calcolo in pratica

La formula base è -∑ y_i log(p_i), dove y_i è la vera etichetta (1 o 0) e p_i la probabilità predetta. Quando la previsione è vicina alla verità, il termine logaritmico diventa vicino a zero, quindi l’errore diminuisce.

Quando si usa

  • Classificazione binaria: due classi, ad esempio spam o no‑spam.
  • Multi‑classe: più di due categorie, come riconoscimento facciale.

In entrambi i casi, il cross‑entropy è la scelta dominante perché gestisce bene le probabilità e fornisce gradienti stabili per l’ottimizzazione.

L’impatto sul training

Durante l’addestramento, la backpropagation utilizza il gradiente del cross‑entropy. Se il valore è basso, i pesi della rete si adattano lentamente; se alto, le correzioni sono più marcate. Questo equilibrio permette di raggiungere convergenza in meno epoche.

Limiti e alternative

Il cross‑entropy può soffrire di vanishing gradient quando la previsione è quasi certa ma errata. In questi casi, si ricorre a funzioni come Hinge loss o focal loss per migliorare l’addestramento in presenza di classi sbilanciate.

Conclusioni non convenzionali

Il cross‑entropy non è solo una formula matematica: è la bussola che guida i modelli verso decisioni più accurate. Se vuoi costruire sistemi AI affidabili, comprendere e sfruttare questa metrica è un passo fondamentale.