În teoria informației, entropia încrucișată între două distribuții de probabilitate măsoară numărul mediu de biți necesari pentru a identifica un eveniment dintr-un set de posibilități dacă schema de codificare utilizată se bazează pe o distribuție de probabilitate dată în loc de distribuția „adevărată” .
Entropia încrucișată pentru două distribuții și pe același spațiu de probabilitate este definită după cum urmează:
,unde este entropia și este distanța Kullback-Leibler de la (cunoscută și ca entropia relativă ).
Pentru discret și asta înseamnă
Situația pentru o distribuție continuă este similară:
Trebuie avut în vedere că, în ciuda analogiei formale a funcționalelor pentru cazurile continue și discrete, acestea au proprietăți diferite și au semnificații diferite. Cazul continuu are aceleași specificități ca și noțiunea de entropie diferențială .
NB : Notația este uneori folosită atât pentru entropia încrucișată, cât și pentru entropia comună și .
Minimizarea entropiei încrucișate este adesea folosită în optimizare și pentru estimarea probabilităților de evenimente rare.