Fondamenti di Probabilità 1.0

Introduzione

Nella meccanica statistica ci troviamo a collegare il mondo microscopico a quello macroscopico. A causa della nostra inevitabile ignoranza sui dettagli microscopici di sistemi con moltissimi gradi di libertà, dobbiamo ricorrere a concetti di tipo statistico. Questo articolo introduce i fondamenti della teoria della probabilità che risulteranno essenziali per comprendere la meccanica statistica. Quindi questo breve articolo mira a fornire gli strumenti di base per poter lavorare con la meccanica statistica, tuttavia una conoscenza più dettagliata degli argomenti qui richiamate vi sarebbe di grande aiuto.

Definizione di Probabilità e Spazi di Probabilità

La probabilità è un modo per quantificare la nostra ignoranza su un sistema, permettendoci di fare previsioni significative pur non conoscendo tutte le variabili in gioco. Consideriamo l'esempio di un dado: se conoscessimo perfettamente le condizioni iniziali (posizione, velocità impressa e tutti i gradi di libertà), in linea teorica potremmo calcolare, tramite le equazioni della dinamica, quale faccia uscirà. Ma questa computazione risulterebbe impossibile nella pratica, proprio come avviene nel passaggio dal microscopico al macroscopico. Per formalizzare il concetto di probabilità, definiamo tre elementi fondamentali:

  1. Spazio degli eventi elementari ($\Omega$): l'insieme di tutti i possibili risultati di un fenomeno che si osserva.
  2. Spazio degli eventi casuali ($\mathcal{F}$): l'insieme di tutte le possibili combinazioni di eventi elementari.
  3. Misura di probabilità ($P$): una funzione che associa ad ogni evento un numero reale tra 0 e 1.

Dopo aver definito questi elementi, possiamo mostra le seguenti proprietà che la probabilità deve rispettare:

  • Normalizzazione: La probabilità dello spazio degli eventi elementari è 1, $P(\Omega) = 1$.
  • Struttura algebrica: Lo spazio degli eventi casuali $\mathcal{F}$ è un'algebra, cioè chiuso rispetto alle operazioni insiemistiche (unione, intersezione, complemento), quindi sotto l'azione di queste operazioni, il risultato appartiene ancora all'insieme $\mathcal{F}$.
  • Additività: Per eventi disgiunti (mutuamente esclusivi), la probabilità dell'unione è la somma delle probabilità individuali
    \[    
    \text{Se } E_i \cap E_j = \emptyset \text{ per ogni } i \neq j, \text{ allora } P\left(\bigcup_{i=1}^{N} E_i\right) = \sum_{i=1}^{N} P(E_i)    
    \]

esempio: Prendiamo il classico esempio di un dado a sei facce, per questo caso si hanno:

  • Spazio degli eventi elementari: $\Omega = \{1, 2, 3, 4, 5, 6\}$
  • Spazio degli eventi casuali: $\mathcal{F} = \{1, 2, 3, 4, 5, 6, \ldots\}$ che include anche tutti i sottoinsiemi come "numeri pari", "numeri dispari", "numeri maggiori di 3", ecc.

Da questo esempio è facile capire che in generale lo spazio degli eventi casuali, risulterà essere più grande rispetto a quello degli eventi elementari.

Proprietà della Probabilità

Unione di eventi non disgiunti

Se gli eventi A e B non sono disgiunti (cioè $A \cap B \neq \emptyset$), la probabilità della loro unione è:
\[
P(A \cup B) = P(A) + P(B) - P(A \cap B)
\]
Questa formula evita di contare due volte gli eventi che appartengono sia ad A che a B. Infatti $A \cap B$ è contenuta sia in $A$ che in $B$, quindi se si facesse una semplice somma questa quantità verrebbe contata due volte. L'immagine di sotto riportata dovrebbe chiarificare le idee.

Proprietà di completezza

Se lo spazio degli eventi elementari $\Omega$ può essere partizionato in sottoinsiemi disgiunti $H_1, H_2, \ldots, H_N$ tali che:
\[
\Omega = \bigcup_{i=1}^{N} H_i \quad \text{con} \quad H_i \cap H_j = \emptyset \quad \text{per} \quad i \neq j
\]
allora, per un qualsiasi evento A, possiamo scrivere:
\[A = \bigcup_{i=1}^{N} (A \cap H_i)
\]
E quindi, visto che gli $A \cap H_i$ sono a loro volta disgiunti:
\[P(A) = P\left(\bigcup_{i=1}^{N} (A \cap H_i)\right) = \sum_{i=1}^{N} P(A \cap H_i)\]
Questa proprietà ci permette di calcolare la probabilità di un evento complesso scomponendolo in parti più semplici. In altre parole questi insiemi disgiunti $H_i$ sono una sorta di base del nostro spazio $\Omega$.

Eventi Discreti o Continui

Nella teoria della probabilità, bisogna distinguere tra variabili aleatorie discrete e continue, infatti a seconda delle casistica sarà necessario usare le une o le altre.

Eventi Discreti

Nel caso discreto, quindi per un numero finito di eventi, associamo ad ogni evento un'etichetta (spesso un numero intero) e definiamo la probabilità di ciascun evento come $P_n$, dove n è l'etichetta dell'evento. Per un insieme completo di eventi deve valere la condizione di normalizzazione:
\[
\sum_{n} P_n = 1
\]

Eventi Continui

Nel caso continuo, abbiamo un numero infinito di possibili risultati. Denotiamo con X la variabile aleatoria e con x un suo possibile valore, questa distinzione spesso viene trascurata e si confondo la variabile aleatoria direttamente con i valori che può assumere. In presenza di questo tipo di eventi bisogna introdurre la teoria della misura. La probabilità che X assuma esattamente il valore x è tipicamente zero, poiché un singolo punto sulla retta reale ha misura nulla, quindi questa è proprio una domanda insensata. La domanda corretta infatti sta nel chiedersi quale sia la probabilità che la variabile aleatoria assuma un certo valore tra $x$ e $x+dx$. In questo contesto, la quantità rilevante diventa quindi la densità di probabilità $P(x)$, che soddisfa:

  • Non-negatività: $P(x) \geq 0$ per ogni $x$.
  • Normalizzazione:$\int_{-\infty}^{+\infty} P(x) \, dx = 1$

Inoltre la probabilità che la variabile aleatoria X assuma un valore nell'intervallo [a,b] è data da:
\[
P(a \leq X \leq b) = \int_{a}^{b} P(x) \, dx
\]

Funzione di Distribuzione Cumulativa

La funzione di distribuzione cumulativa risponde alla domanda: qual è la probabilità di trovare un valore minore o uguale a un certo valore a?
Nel caso continuo:
\[
P(X \leq a) = \int_{-\infty}^{a} P(x) \, dx
\]
Nel caso discreto:
\[
P(X_k \leq X_a) = \sum_{k=1}^{a} P(X_k)
\]
Analogamente, possiamo definire la probabilità di trovare un valore maggiore di a, per cui nel caso continuo:
\[
P(X > a) = \int_{a}^{+\infty} P(x) \, dx
\]
Mentre nel caso discreto:
\[
P(X_k > X_a) = \sum_{k=a+1}^{N} P(X_k)
\]

Probabilità Condizionata e Teorema di Bayes

Un concetto fondamentale nella teoria della probabilità è quello della probabilità condizionata: qual è la probabilità che si verifichi l'evento A sapendo che l'evento B si è già verificato?
La probabilità condizionata $P(A|B)$ è definita come:
\[
P(A|B) = \frac{P(A \cap B)}{P(B)}
\]
Questa definizione ha un'interpretazione geometrica intuitiva: se rappresentiamo gli eventi come insiemi, la probabilità condizionata $P(A|B)$ è la frazione dell'area di B che è anche in A (cioè l'intersezione $A \cap B$) rispetto all'area totale di B.
Dalla definizione di probabilità condizionata, possiamo derivare la seguente relazione:
\[
P(A \cap B) = P(A|B) \cdot P(B) = P(B|A) \cdot P(A)
\]
Da questa uguaglianza otteniamo il Teorema di Bayes:
\[
P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
\]
Questa formula, nota come formula di Bayes, è uno strumento potentissimo nella teoria della probabilità. Non si tratta più di chiedersi quale sia la probabilità che avvenga un certo evento, ma, dato che un certo evento si è verificato, quanto fosse verosimile che si verificasse alla luce delle ipotesi considerate.
I vari termini hanno nomi specifici:

  • $P(B|A)$ è detta verosimiglianza (likelihood): rappresenta quanto è probabile osservare B se A è vero.
  • $P(A)$ è detta probabilità a priori (prior): rappresenta la nostra conoscenza iniziale su A.
  • $P(B)$ agisce come fattore di normalizzazione.
  • $P(A|B)$ è detta probabilità a posteriori: rappresenta la nostra conoscenza aggiornata su A dopo aver osservato B.

Eventi Indipendenti

Due eventi A e B si dicono indipendenti se il verificarsi di uno non influenza la probabilità che si verifichi l'altro. In termini formali:
\[
P(A|B) = P(A)
\]

Dalla definizione di probabilità condizionata, segue immediatamente che:
\[
P(A \cap B) = P(A) \cdot P(B)
\]

Questa proprietà è simmetrica, quindi se A è indipendente da B, anche B è indipendente da A:
\[
P(B|A) = P(B)
\]

La nozione di indipendenza si generalizza facilmente a più eventi. Se abbiamo $N$ eventi $\{B_i\}_{i=1}^N$ mutuamente indipendenti, allora:
\[
P\left(\bigcap_{i=1}^N B_i\right) = \prod_{i=1}^N P(B_i)
\]

Marginalizzazione e Distribuzioni Multivariate

In molti problemi di meccanica statistica, lavoriamo con più variabili aleatorie simultaneamente. Consideriamo due variabili casuali X e Y con distribuzione di probabilità congiunta $P(x,y)$, che rappresenta la probabilità che X assuma il valore x e Y assuma il valore y.

Se siamo interessati solo alla distribuzione di una delle due variabili (ad esempio, X), possiamo ottenere la sua distribuzione marginale integrando sulla variabile che non ci interessa:
\[
P(x) = \int P(x,y) \, dy
\]

Questo processo è noto come marginalizzazione. Nel caso discreto, l'integrale viene sostituito da una sommatoria che corre sulla variabile che vogliamo trascurare.

esempio: Gas di Particelle

Consideriamo un gas di N particelle con hamiltoniana:
\[
H = \frac{\sum_i p_i^2}{2m} + V(\Vec{q}_1,...,\Vec{q}_N)
\]

Supponiamo di voler determinare la distribuzione di probabilità dell'energia cinetica $K = \sum_i \frac{p_i^2}{2m}$. Nell'ensemble microcanonico, la distribuzione è data da:
\[
\rho_{\text{micro}} = \delta\left(K - H(q,p)\right)
\]

Se ci interessa solo la distribuzione dei momenti, possiamo marginalizzare rispetto alle posizioni. Quindi:
\[
\rho (p) = \int dq \, \delta\left(K - H(q,p)\right)
\]

Trasformazione di Variabili Aleatorie

Supponiamo di avere una distribuzione di probabilità $P(x_1, \ldots, x_N)$ per N variabili aleatorie, e di definire M nuove variabili $\{y_i\}_{i=1}^M$ come funzioni delle originali:
\[
y_i = f_i(x_1, \ldots, x_N) \quad \text{per} \quad i = 1, \ldots, M
\]

La distribuzione di probabilità delle nuove variabili $P(y_1, \ldots, y_M)$ è data da:
\[
P(y_1, \ldots, y_M) = \int dx_1 \ldots dx_N \, P(x_1, \ldots, x_N) \, \delta(y_1 - f_1(x_1, \ldots, x_N)) \ldots \delta(y_M - f_M(x_1, \ldots, x_N))
\]

Le funzioni delta di Dirac selezionano solo quei valori di $x_i$ che producono i valori desiderati $y_i$ quando inseriti nelle funzioni $f_i$.

Momenti e Funzioni Caratteristiche

I momenti di una distribuzione di probabilità sono quantità fondamentali che spesso caratterizzano completamente la distribuzione. Per una variabile aleatoria X, i momenti sono definiti come:
\[
\langle X^n \rangle = \int x^n P(x) \, dx
\]

I momenti di ordine inferiore hanno interpretazioni fisiche immediate:

  • Il momento primo $\langle X \rangle$ è il valore atteso (o media).
  • Il momento secondo centrato, noto come varianza $\sigma^2$, è definito come:
    \[
    \sigma^2 = \langle (X - \langle X \rangle)^2 \rangle = \langle X^2 \rangle - \langle X \rangle^2
    \]

La varianza quantifica la dispersione dei valori attorno alla media. Una distribuzione è completamente caratterizzata dai suoi momenti quando:

  • Esistono tutti i momenti.
  • I momenti crescono meno velocemente di $j!^2$, dove $j$ è l'ordine del momento

Funzione Caratteristica (Trasformata di Fourier)

Un modo elegante per lavorare con i momenti è attraverso la funzione caratteristica, che è la trasformata di Fourier della distribuzione di probabilità:
\[
\tilde{P}(q) = \int e^{iqx} P(x) \, dx = \langle e^{iqx} \rangle
\]

Per valori piccoli di $q$, possiamo espandere l'esponenziale in serie:
\[
\langle e^{iqx} \rangle = \int (1 + iqx - \frac{q^2x^2}{2} + \ldots) P(x) \, dx = 1 + iq\langle X \rangle - \frac{q^2}{2}\langle X^2 \rangle + \ldots
\]

Più in generale:
\[
\tilde{P}(q) = \sum_{n=0}^{\infty} \frac{(iq)^n}{n!} \langle X^n \rangle
\]

Confrontando con l'espansione in serie di Taylor di $\tilde{P}(q)$:
\[
\tilde{P}(q) = \sum_{n=0}^{\infty} \frac{1}{n!} \left.\frac{d^n\tilde{P}(q)}{dq^n}\right|_{q=0} q^n
\]

otteniamo la relazione fondamentale:
\[
\langle X^n \rangle = \frac{1}{i^n} \left.\frac{d^n\tilde{P}(q)}{dq^n}\right|_{q=0}
\]

Questa equazione permette di calcolare i momenti derivando la funzione caratteristica e valutando le derivate in $q=0$. Per questo motivo, $\tilde{P}(q)$ è chiamata funzione generatrice dei momenti.

Cumulanti

I cumulanti sono combinazioni di momenti che hanno proprietà additive per variabili indipendenti. Se Z = X + Y, dove X e Y sono variabili indipendenti, allora il cumulante di ordine n di Z è la somma dei cumulanti di X e Y:
\[
\kappa_n(Z) = \kappa_n(X) + \kappa_n(Y)
\]

La funzione generatrice dei cumulanti è definita come:
\[
C(q) = \ln(\tilde{P}(q))
\]

I cumulanti di ordine inferiore sono particolarmente importanti:

  • l primo cumulante è uguale alla media: $\kappa_1 = \langle X \rangle$.
  • Il secondo cumulante è uguale alla varianza: $\kappa_2 = \sigma^2$.

Analogamente ai momenti, i cumulanti possono essere calcolati derivando la funzione generatrice:
\[
\kappa_n = \frac{1}{i^n} \left.\frac{d^nC(q)}{dq^n}\right|_{q=0}
\]

Cambio di Variabili in Distribuzione di Probabilità

Quando passiamo da una variabile aleatoria X a una nuova variabile Y = f(X), la distribuzione di probabilità di Y può essere calcolata partendo dalla distribuzione di X. Nel caso unidimensionale, se la funzione f è invertibile (cioè esiste $f^{-1}$ tale che $X = f^{-1}(Y)$), la distribuzione di Y si trova come segue. Innanzitutto sappiamo che:
\[P(y) = \int dx \, P(x) \, \delta(y-f(x))\]
Quindi eseguo il cambio di variabile:
\[y = f(x) \Rightarrow x = f^{-1}(y') = x(y')\]
\[dy'=\frac{df}{dx}dx\]
sostituisco nell'integrale di partenza:
\[P(y) = \int dy' \, \frac{P(x(y'))}{\frac{df}{dx}} \, \delta(y-y') = \frac{P(x(y))}{\frac{df}{dx}} = \frac{P(x(y))}{\frac{dy}{dx}} \Rightarrow P(y) \, dy = P(x) \, dx\]
Siccome bisgna considerare il fatto che la funzione possa essere sia crescente che decrescente, si mette $\left|\frac{dy}{dx}\right|$. In conclusione si trova:
\[P(y) = P(x(y)) \left|\frac{dx}{dy}\right| = \frac{P(x(y))}{\left|\frac{dy}{dx}\right|}\]

dove $\left|\frac{dx}{dy}\right|$ è il valore assoluto della derivata di $x$ rispetto a $y$, che rappresenta come cambiano gli elementi infinitesimi di volume nel passaggio da una variabile all'altra. Inoltre la richiesta di invertibilità della funzione che lega x e y è fondamentale, perché se così non fosse, ci sarebbe una perdita di informazione nel passaggio da una variabile all'altra e quindi non sarebbe un buon cambio di variabile.

Nel caso multidimensionale, quando passiamo da $\{x_i\}_{i=1}^N$ a $\{y_i\}_{i=1}^N$, la formula diventa:
\[P(y_1, \ldots, y_N) = \frac{P(x_1(y_1, \ldots, y_N), \ldots, x_N(y_1, \ldots, y_N))}{|\det(J)|}\]

dove $J$ è la matrice Jacobiana con elementi $J_{ik} = \frac{\partial y_k}{\partial x_i}$. Questa formula per il cambio di variabili è fondamentale in meccanica statistica, dove spesso passiamo da variabili microscopiche (posizioni e momenti delle particelle) a osservabili macroscopiche (energia, pressione, temperatura, ecc.).

Distribuzioni di Probabilità Fondamentali

In questa sezione esploreremo alcune delle distribuzioni di probabilità più rilevanti che compaiono frequentemente nella meccanica statistica e in molti problemi fisici. Queste distribuzioni forniscono gli strumenti necessari per affrontare problemi con caratteristiche specifiche.

Distribuzione Binomiale

La distribuzione binomiale descrive processi bernoulliani, ovvero esperimenti in cui possono verificarsi solamente due eventi mutuamente escludenti. Questi processi sono estremamente importanti, poiché modellano situazioni dove ogni prova può dare solo "successo" o "insuccesso".

Se associamo al "successo" una probabilità $p$, allora la probabilità dell'insuccesso sarà $q = 1-p$. La distribuzione binomiale risponde alla domanda: qual è la probabilità di ottenere esattamente $k$ successi in $n$ prove indipendenti?

Questa probabilità viene indicata con $B(n,k,p)$ ed è data da:

\[ B(n,k,p) = \frac{n!}{k!(n-k)!} p^k q^{n-k} = \binom{n}{k} p^k q^{n-k} \]

Il fattore combinatorio $\binom{n}{k}$ rappresenta il numero di modi in cui possiamo ordinare $k$ successi tra $n$ prove.

Valore atteso e varianza

Il valore atteso (o media) della distribuzione binomiale si calcola come:
\[\langle k \rangle = \sum_{k=0}^{n} k B(n,k,p) = \sum_{k=1}^{n} k \binom{n}{k} p^k q^{n-k} = \sum_{k=1}^{n} k \frac{n!}{k!(n-k)!} p^k q^{n-k}\]

Possiamo riscrivere il fattoriale $n!$ come $n \cdot (n-1)!$ e $k$ come $\frac{k!}{(k-1)!}$:
\[\langle k \rangle = \sum_{k=1}^{n} \frac{n \cdot (n-1)!}{(k-1)!(n-k)!} p^k q^{n-k} = np \sum_{k=1}^{n} \binom{n-1}{k-1} p^{k-1} q^{n-k}\]

Facendo una sostituzione $k' = k-1$, otteniamo:
\[\langle k \rangle = np \sum_{k'=0}^{n-1} \binom{n-1}{k'} p^{k'} q^{n-1-k'} = np (p + q)^{n-1} = np\]

dove abbiamo usato il binomio di Newton e il fatto che $p + q = 1$.

Per calcolare la varianza, è utile prima determinare $\langle k(k-1) \rangle$:
\begin{align*}
\langle k(k-1) \rangle &= \sum_{k=0}^{n} k(k-1) B(n,k,p) = \sum_{k=2}^{n} k(k-1) \binom{n}{k} p^k q^{n-k} \\
&= \sum_{k=2}^{n} \frac{n!}{(k-2)!(n-k)!} p^k q^{n-k} \\
&= n(n-1)p^2 \sum_{k=2}^{n} \binom{n-2}{k-2} p^{k-2} q^{n-k} \\
&= n(n-1)p^2 (p+q)^{n-2} = n(n-1)p^2
\end{align*}

Ora possiamo calcolare la varianza:
\begin{align*}
\sigma^2 &= \langle k^2 \rangle - \langle k \rangle^2 \\
&= \langle k(k-1) \rangle + \langle k \rangle - \langle k \rangle^2 \\
&= n(n-1)p^2 + np - (np)^2 \\
&= n^2p^2 - np^2 + np - n^2p^2 \\
&= np(1-p) = npq
\end{align*}

Quindi il valore atteso e la varianza della distribuzione binomiale sono:
\[ \langle k \rangle = np \]
\[ \sigma^2 = npq \]

Distribuzione di Poisson

La distribuzione di Poisson rappresenta un caso limite della distribuzione binomiale che si verifica quando il numero di prove $n$ tende all'infinito mentre il prodotto $np = \lambda$ rimane costante. In altre parole, il parametro $\lambda$ rappresenta il numero medio di successi nell'intervallo considerato.

La distribuzione di Poisson è particolarmente utile per modellare eventi rari che si verificano con un tasso costante, come i decadimenti radioattivi, l'arrivo di pacchetti di dati in una rete, o il numero di telefonate che arrivano a un centralino in un dato intervallo di tempo.

Se dividiamo un periodo di tempo $T$ in tanti intervallini di lunghezza $\Delta t$, possiamo assumere che in ciascun intervallo si verifichi al massimo un evento. Se definiamo $r$ come il tasso di eventi per unità di tempo, allora la probabilità $p$ che un evento si verifichi in un singolo intervallo è $p = r\Delta t$, perciò assume un significato di frequenza temporale. La distribuzione di Poisson è data da:
\[ P(k, \lambda) = \frac{\lambda^k e^{-\lambda}}{k!} \]

dove $k$ è il numero di eventi e $\lambda$ è il valore atteso.

Derivazione dalla distribuzione binomiale

Partiamo dalla distribuzione binomiale e consideriamo il limite per $n \to \infty$ e $p \to 0$, mantenendo costante $np = \lambda$:
\begin{align*}
\lim_{n \to \infty} B(n,k,p) &= \lim_{n \to \infty} \binom{n}{k} \left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k} \\
&= \lim_{n \to \infty} \frac{n!}{k!(n-k)!} \frac{\lambda^k}{n^k} \left(1-\frac{\lambda}{n}\right)^{n} \left(1-\frac{\lambda}{n}\right)^{-k}
\end{align*}

Riscriviamo il fattore $\frac{n!}{(n-k)!n^k}$ come $\frac{n(n-1)\cdots(n-k+1)}{n^k}$:
\begin{align*}
\lim_{n \to \infty} B(n,k,p) &= \lim_{n \to \infty} \frac{n(n-1)\cdots(n-k+1)}{n^k} \frac{\lambda^k}{k!} \left(1-\frac{\lambda}{n}\right)^{n} \left(1-\frac{\lambda}{n}\right)^{-k} \\
&= \frac{\lambda^k}{k!} \lim_{n \to \infty} \left(1-\frac{\lambda}{n}\right)^{n} \lim_{n \to \infty} \left(1-\frac{\lambda}{n}\right)^{-k} \lim_{n \to \infty} \frac{n(n-1)\cdots(n-k+1)}{n^k}
\end{align*}

Il primo limite è $e^{-\lambda}$, il secondo tende a 1, e il terzo tende a 1. Quindi:

\[ \lim_{n \to \infty} B(n,k,p) = \frac{\lambda^k e^{-\lambda}}{k!} = P(k, \lambda) \]

Normalizzazione, valore atteso e varianza

Verifichiamo che la distribuzione di Poisson sia normalizzata:
\[ \sum_{k=0}^{\infty} P(k, \lambda) = \sum_{k=0}^{\infty} \frac{\lambda^k e^{-\lambda}}{k!} = e^{-\lambda} \sum_{k=0}^{\infty} \frac{\lambda^k}{k!} = e^{-\lambda} e^{\lambda} = 1 \]

Il valore atteso si calcola come:
\begin{align*}
\langle k \rangle &= \sum_{k=0}^{\infty} k P(k, \lambda) = \sum_{k=1}^{\infty} k \frac{\lambda^k e^{-\lambda}}{k!} \\
&= \lambda e^{-\lambda} \sum_{k=1}^{\infty} \frac{\lambda^{k-1}}{(k-1)!} \\
&= \lambda e^{-\lambda} \sum_{j=0}^{\infty} \frac{\lambda^j}{j!} = \lambda e^{-\lambda} e^{\lambda} = \lambda
\end{align*}

Per la varianza, calcoliamo prima $\langle k(k-1) \rangle$:
\begin{align*}
\langle k(k-1) \rangle &= \sum_{k=0}^{\infty} k(k-1) P(k, \lambda) = \sum_{k=2}^{\infty} k(k-1) \frac{\lambda^k e^{-\lambda}}{k!} \\
&= \lambda^2 e^{-\lambda} \sum_{k=2}^{\infty} \frac{\lambda^{k-2}}{(k-2)!} = \lambda^2 e^{-\lambda} e^{\lambda} = \lambda^2
\end{align*}

La varianza è quindi:
\begin{align*}
\sigma^2 &= \langle k^2 \rangle - \langle k \rangle^2 \\
&= \langle k(k-1) \rangle + \langle k \rangle - \langle k \rangle^2 \\
&= \lambda^2 + \lambda - \lambda^2 = \lambda
\end{align*}

Notiamo che per la distribuzione di Poisson, il valore atteso e la varianza coincidono: $\langle k \rangle = \sigma^2 = \lambda$. Questa è una proprietà caratteristica che può essere utilizzata per verificare empiricamente se un fenomeno segue una distribuzione di Poisson.

Distribuzione Normale (Gaussiana)

La distribuzione normale, o gaussiana, è una delle distribuzioni più importanti in fisica e in statistica. Emerge naturalmente in molti contesti grazie al teorema del limite centrale, che afferma che la somma di molte variabili aleatorie indipendenti con media e varianza finite tende a una distribuzione normale. La forma della distribuzione normale con media $\mu$ e varianza $\sigma^2$ è:
\[ P(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

Il caso particolare con $\mu = 0$ e $\sigma^2 = 1$ è chiamato distribuzione normale standard.

Integrali gaussiani e momenti

Gli integrali gaussiani sono fondamentali nella fisica statistica. Un risultato importante è:
\[ \int_{-\infty}^{\infty} e^{-ax^2 + bx} dx = \sqrt{\frac{\pi}{a}} e^{\frac{b^2}{4a}} \]

Per una distribuzione normale con media zero, i momenti dispari sono tutti nulli a causa della simmetria della curva rispetto all'origine. Per i momenti pari, possiamo utilizzare la funzione caratteristica per calcolarli.

Consideriamo il valore atteso di $e^{iqx}$ per una distribuzione normale con media nulla e varianza $\sigma^2$:
\begin{align*}
\langle e^{iqx} \rangle &= \int_{-\infty}^{\infty} e^{iqx} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{x^2}{2\sigma^2}} dx \\
&= \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} e^{-\frac{1}{2\sigma^2}(x^2 - 2iq\sigma^2 x)} dx
\end{align*}

Completando il quadrato nell'esponente:
\begin{align*}
\langle e^{iqx} \rangle &= \frac{1}{\sqrt{2\pi\sigma^2}} \int_{-\infty}^{\infty} e^{-\frac{1}{2\sigma^2}[(x - iq\sigma^2)^2 + q^2\sigma^4]} dx \\
&= \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{q^2\sigma^2}{2}} \int_{-\infty}^{\infty} e^{-\frac{(x - iq\sigma^2)^2}{2\sigma^2}} dx
\end{align*}

L'integrale vale $\sqrt{2\pi\sigma^2}$, quindi:
\[ \langle e^{iqx} \rangle = e^{-\frac{q^2\sigma^2}{2}} \]

Per valori piccoli di $q$, possiamo espandere $e^{iqx}$ in serie di potenze:
\[ e^{iqx} = \sum_{n=0}^{\infty} \frac{(iqx)^n}{n!} \]

e quindi:
\[ \langle e^{iqx} \rangle = \sum_{n=0}^{\infty} \frac{(iq)^n}{n!} \langle x^n \rangle \]

Confrontando con l'espansione di $e^{-\frac{q^2\sigma^2}{2}}$:
\[ e^{-\frac{q^2\sigma^2}{2}} = \sum_{k=0}^{\infty} \frac{(-1)^k}{k!} \left(\frac{q^2\sigma^2}{2}\right)^k \]

Poiché i momenti dispari sono nulli, abbiamo:
\[ \sum_{n=0, n \text{ pari}}^{\infty} \frac{(iq)^n}{n!} \langle x^n \rangle = \sum_{k=0}^{\infty} \frac{(-1)^k q^{2k} \sigma^{2k}}{k! 2^k} \]

Confrontando i coefficienti di $q^{2k}$, otteniamo:
\[ \frac{i^{2k}}{(2k)!} \langle x^{2k} \rangle = \frac{(-1)^k \sigma^{2k}}{k! 2^k} \]

Dato che $i^{2k} = (-1)^k$, abbiamo:
\[ \langle x^{2k} \rangle = \frac{(2k)!}{k! 2^k} \sigma^{2k} \]

Questa formula può essere riscritta come:
\[ \langle x^{2k} \rangle = (2k-1)!! \cdot \sigma^{2k} \]

dove $(2k-1)!!$ indica il prodotto dei numeri dispari da 1 a $(2k-1)$:
\[ (2k-1)!! = (2k-1) \cdot (2k-3) \cdot \ldots \cdot 3 \cdot 1 \]

In particolare, i primi momenti pari sono:
\[ \langle x^2 \rangle = \sigma^2 \]
\[ \langle x^4 \rangle = 3\sigma^4 \]
\[ \langle x^6 \rangle = 15\sigma^6 \]

Applicazioni alla Meccanica Statistica

Le distribuzioni che abbiamo esaminato hanno numerose applicazioni in meccanica statistica:

  • Distribuzione binomiale: Descrive la probabilità di trovare un certo numero di particelle in un particolare stato energetico in un sistema ideale di due livelli.
  • Distribuzione di Poisson: Modella le fluttuazioni nel numero di particelle in un piccolo volume di un gas diluito all'equilibrio, essenziale per comprendere le fluttuazioni locali di densità e energia.
  • Distribuzione normale: Emerge naturalmente in sistemi con molti gradi di libertà grazie al teorema del limite centrale. Le fluttuazioni di energia nei sistemi macroscopici all'equilibrio seguono spesso distribuzioni gaussiane.

Una manifestazione concreta di queste distribuzioni in meccanica statistica è la velocità molecolare in un gas ideale. La probabilità che una molecola abbia una componente della velocità in un certo intervallo segue una distribuzione gaussiana, mentre la distribuzione del modulo della velocità (distribuzione di Maxwell) deriva da essa.

Conclusioni

I concetti di probabilità che abbiamo esplorato in questo articolo costituiscono la base matematica necessaria per affrontare lo studio della meccanica statistica. Partendo dalle definizioni fondamentali di spazi di probabilità e variabili aleatorie, abbiamo esaminato come trattare l'incertezza sia in sistemi discreti che continui. Abbiamo poi esplorato concetti avanzati come la probabilità condizionata e il teorema di Bayes, che ci permettono di aggiornare le nostre conoscenze quando otteniamo nuove informazioni. La marginalizzazione ci consente di focalizzarci sulle variabili di interesse, trascurando le altre. I momenti e le funzioni caratteristiche forniscono metodi potenti per caratterizzare le distribuzioni di probabilità, mentre il cambio di variabili ci permette di passare da descrizioni microscopiche a descrizioni macroscopiche dei sistemi fisici. Le distribuzioni di probabilità fondamentali - binomiale, Poisson e normale - sono strumenti imprescindibili nell'analisi dei sistemi con molti gradi di libertà. La distribuzione binomiale ci permette di analizzare sistemi con risultati discreti, la distribuzione di Poisson è ideale per eventi rari con tasso costante, mentre la distribuzione normale emerge naturalmente come limite di molte altre distribuzioni grazie al teorema del limite centrale. Tutti questi strumenti matematici, combinati con i principi fisici, formano l'infrastruttura concettuale della meccanica statistica, permettendoci di collegare il comportamento microscopico dei sistemi con le loro proprietà termodinamiche macroscopiche.