Fondamenti di Probabilità 2.0

Introduzione

La meccanica statistica rappresenta un ponte fondamentale tra il comportamento microscopico e macroscopico della materia. Per comprenderla appieno, è necessario padroneggiare alcuni concetti probabilistici essenziali che permettono di descrivere il comportamento collettivo di un grande numero di particelle. In questo articolo, esploreremo i fondamenti matematici che stanno alla base della meccanica statistica, partendo dalle disuguaglianze fondamentali fino ad arrivare ai teoremi limite e alle tecniche di approssimazione che trovano applicazione nelle distribuzioni di equilibrio. La prima parte della base matematica necessaria per affrontare questo corso è stata trattata in fondamenti di probabilità 1.0. La bellezza della meccanica statistica risiede proprio nel suo utilizzo della probabilità per spiegare fenomeni fisici complessi. Vedremo come, attraverso strumenti matematici relativamente semplici, si possa dare senso a comportamenti macroscopici apparentemente deterministici, partendo da una descrizione probabilistica dei componenti microscopici.

Disuguaglianze Fondamentali: Čebyšëv e Markov

La Disuguaglianza di Čebyšëv

La disuguaglianza di Čebyšëv rappresenta uno strumento fondamentale che ci permette di stimare quanto sia probabile che una variabile aleatoria si discosti significativamente dal suo valore medio. In termini formali, possiamo enunciarla come:
\begin{equation*}
P(|x-\mu| > \varepsilon) \leq \frac{\sigma^2}{\varepsilon^2}
\end{equation*}

dove $x$ è una variabile aleatoria con media $\mu$ e varianza $\sigma^2$, mentre $\varepsilon$ è un valore positivo arbitrario.

La dimostrazione di questa disuguaglianza è particolarmente illuminante. Osserviamo che:
\[|x-\mu| > \varepsilon \Rightarrow \frac{|x-\mu|}{\varepsilon} > 1 \Rightarrow \frac{(x-\mu)^2}{\varepsilon^2} > 1\]

Possiamo quindi scrivere:
\[P(|x-\mu| > \varepsilon) = \int_{-\infty}^{-\varepsilon+\mu} p(x) dx + \int_{\varepsilon+\mu}^{\infty} p(x) dx\]

Siccome $\int_{-\varepsilon+\mu}^{\varepsilon+\mu} p(x) dx\geq 0$, possiamo scrivere quanto segue:
\[P(|x-\mu| > \varepsilon)\leq \int_{-\infty}^{\infty} p(x) dx \leq \int_{-\infty}^{\infty} \frac{(x-\mu)^2}{\varepsilon^2} p(x) dx = \frac{1}{\varepsilon^2} \int_{-\infty}^{\infty} (x-\mu)^2 p(x) dx = \frac{\sigma^2}{\varepsilon^2}\]

dove nel secondo passaggio abbiamo usato il fatto che $\frac{(x-\mu)^2}{\varepsilon^2} > 1$. Questo dimostra il lemma di Čebyšëv. La disuguaglianza di Čebyšëv ci fornisce un limite superiore alla probabilità di trovare valori molto distanti dalla media, e questo limite è indipendente dalla forma specifica della distribuzione di probabilità, dipendendo solo dalla varianza e diventa sempre più piccolo man mano che ci si allontana dal valore aspettato.

La Disuguaglianza di Markov

Un'altra disuguaglianza importante è quella di Markov, che rappresenta una generalizzazione e si può esprimere come:
\[P(|x| \geq \varepsilon) \leq \frac{\langle |x|^n \rangle}{\varepsilon^n}\]

dove $\langle |x|^n \rangle$ rappresenta il momento di ordine $n$ della variabile aleatoria $x$. La dimostrazione segue un percorso simile a quella di Čebyšëv, ma generalizzata per momenti di ordine superiore. Queste disuguaglianze sono particolarmente utili in meccanica statistica quando si vuole stimare la probabilità di fluttuazioni significative rispetto ai valori di equilibrio.

La Legge dei Grandi Numeri

La legge dei grandi numeri rappresenta uno dei pilastri della teoria della probabilità e della meccanica statistica. Essa afferma che, sotto appropriate ipotesi, la media aritmetica di un grande numero di variabili aleatorie indipendenti tende a convergere al valore atteso teorico.

Formalmente, se consideriamo una successione di variabili aleatorie indipendenti $x_1, x_2, \ldots, x_N$ con media finita $\mu$ e varianza finita $\sigma^2$, definiamo la media campionaria:
\[y_N = \frac{1}{N} \sum_{k=1}^{N} x_k\]

La legge dei grandi numeri (nella sua forma debole) afferma che:
\[P(|y_N - \mu| > \varepsilon) \xrightarrow{N \to \infty} 0\]

per ogni $\varepsilon > 0$.

Dimostrazione della Legge dei Grandi Numeri

Per dimostrare questo teorema, calcoliamo innanzitutto il valore atteso di $y_N$:
\[\langle y_N \rangle = \frac{1}{N} \sum_{k=1}^{N} \langle x_k \rangle = \frac{1}{N} \sum_{k=1}^{N} \mu_k = \mu \]

quindi abbiamo chiamato la media dei valori attesi $\mu$.

Consideriamo ora la variabile $z_N = \sum_{k=1}^{N} x_k$, che ha valore atteso $\mu_z = \sum_{k=1}^{N} \mu_k = N\mu$. La varianza di $z_N$ è:
\begin{equation}
\sigma_z^2 &= \langle z_N^2 \rangle - \langle z_N \rangle^2 =\sum_{k=1}^{N} \langle x_k^2 \rangle + \sum_{k \neq l} \langle x_k x_l \rangle - \left(\sum_{k=1}^{N} \mu_k\right)^2 = \sum_{k=1}^{N} \langle x_k^2 \rangle + \sum_{k \neq l} \langle x_k \rangle \langle x_l \rangle - \sum_{k=1}^{N} \mu_k^2 -\sum_{k \neq l} \mu_k \mu_l
\begin{equation}

Dove abbiamo usato il fatto che le variabili siano indipendenti, cioè $\langle x_k x_l \rangle = \langle x_k \rangle \langle x_l \rangle = \mu_k \mu_l$ per $k \neq l$. In definitiva abbiamo trovato:
\[\sigma_z^2 = \sum_{k=1}^{N} \langle x_k^2 \rangle - \sum_{k=1}^{N} \mu_k^2 = \sum_{k=1}^{N} \sigma_k^2 = N\sigma^2 \]

Dato che $y_N = \frac{1}{N} z_N$, la probabilità che $y_N$ si discosti significativamente da $\mu$ è:
\[P(|y_N - \mu| > \varepsilon) = P\left(\left|\frac{z_N}{N} - \mu\right| > \varepsilon\right) = P(|z_N - N\mu| > N\varepsilon) = P(|z_N - \mu_z| > N\varepsilon) \]

Applicando la disuguaglianza di Čebyšëv:
\[P(|z_N - \mu_z| > N\varepsilon) \leq \frac{\sigma_z^2}{(N\varepsilon)^2} = \frac{N\sigma^2}{N^2\varepsilon^2} = \frac{\sigma^2}{N\varepsilon^2} \]

Quindi:
\[P(|y_N - \mu| > \varepsilon) \leq \frac{\sigma^2}{N\varepsilon^2} \xrightarrow{N \to \infty} 0 \]

Il che dimostra la legge dei grandi numeri.

Il Teorema del Limite Centrale

Il teorema del limite centrale (TLC) rappresenta un altro risultato fondamentale in teoria della probabilità con profonde implicazioni per la meccanica statistica. Esso afferma che, sotto condizioni generali, la somma di un grande numero di variabili aleatorie indipendenti, adeguatamente normalizzata, tende a seguire una distribuzione gaussiana. Le ipotesi di media e varianza finite sono ancora richieste.
Più precisamente, consideriamo la variabile:
\[ w_N = \frac{1}{\sqrt{N}} \sum_{k=1}^{N} x_k\]

Il teorema del limite centrale afferma che, per $N$ sufficientemente grande, la distribuzione di probabilità delle $w$ tende a una distribuzione normale:
\[ P(w) \approx \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(w-\mu)^2}{2\sigma^2}\right) \]

dove $\mu$ è la media comune delle variabili $x_k$ e $\sigma^2$ è media della varianza delle varianze delle $x_k$.

Dimostrazione del Teorema del Limite Centrale

Per semplicità, assumiamo che le variabili $X_k$ siano indipendenti e abbiano media nulla ($\mu = 0$). La densità di probabilità di $W_N$ può essere scritta come:
\[ P(w) = \int dx_1 \ldots dx_N \, P(x_1) \ldots P(x_N) \, \delta\left(w - \frac{1}{\sqrt{N}} \sum_{k=1}^{N} x_k\right) \]

Utilizzando la rappresentazione della delta di Dirac attraverso la sua trasformata di Fourier:
\[ \delta(x) = \int \frac{dq}{2\pi} e^{iqx} \]

otteniamo:
\[ P(w) = \int \frac{dq}{2\pi} e^{-iqw} \int dx_1 \ldots dx_N \, P(x_1) \ldots P(x_N) \, e^{i\frac{q}{\sqrt{N}} \sum_{k=1}^{N} x_k} \]

Poiché le variabili sono indipendenti e la sommatoria all'esponente diventa una produttoria, questo può essere riscritto come:
\[ P(w) = \int \frac{dq}{2\pi} e^{-iqw} \prod_{k=1}^{N} \int dx_k \, P(x_k) \, e^{iq\frac{x_k}{\sqrt{N}}} \]

Definiamo la trasformata di Fourier $\tilde{P}(q)$ di $P(x)$ come:
\[ \tilde{P}(q) = \int dx \, e^{iqx} \, P(x) \]

Come già detto questa trasformata prende il nome di funzione generatrice dei momenti della distribuzione. Per valori piccoli di $q$, possiamo sviluppare $\tilde{P}(q)$ in serie di Taylor:
\[\tilde{P}(q) = \int dx \, P(x) \, \left(1 + iqx - \frac{q^2 x^2}{2} + \ldots\right) = 1 - \frac{q^2 \sigma^2}{2} + \ldots \]

Adesso usiamo il fatto che $\int dx \, P(x) = 1$ e $\int dx \, x \, P(x) = 0$ (media nulla). Quindi possiamo scrivere:
\[\tilde{P}\left(\frac{q}{\sqrt{N}}\right) \approx 1 - \frac{q^2 \sigma^2}{2N} + \ldots \]

e:
\[ \prod_{k=1}^{N} \tilde{P}\left(\frac{q}{\sqrt{N}}\right) \approx \prod_{k=1}^{N} \left(1 - \frac{q^2 \sigma^2_k}{2N} + \ldots\right) \approx \prod_{k=1}^{N} \left(e^{-\frac{q^2 \sigma_k^2}{2N}}\right) = e^{\frac{q^2 \sum_{k=1}^N \sigma_k^2}{2N}}= e^{-\frac{q^2 \sigma^2}{2}} \]

Dove abbiamo definito $\sigma^2=\frac{1}{N}\sum_{k=1}^N \sigma_k^2$.  Ciò implica:
\[P(w) \approx \int \frac{dq}{2\pi} e^{-iqW} e^{-\frac{q^2 \sigma^2}{2}} = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{w^2}{2\sigma^2}}\]

Questo dimostra che $w_N$ segue una distribuzione gaussiana con media 0 e varianza $\sigma^2$.

L'Approssimazione di Laplace (o di Picco)

L'approssimazione di Laplace (o di picco) è una tecnica potente per calcolare integrali della forma:
\[ I = \int_a^b dx \, e^{N f(x)}\]

dove $N$ è un numero intero, e $f(x)$ è una funzione regolare definita sull'intervallo $[a,b]$ con un massimo all'interno di questo intervallo.
L'idea fondamentale è che, per $N$ grande, il valore dell'integrale sarà dominato dai contributi vicini al massimo della funzione $f(x)$. Se indichiamo con $x_0$ il punto in cui $f(x)$ raggiunge il suo massimo, possiamo sviluppare $f(x)$ in serie di Taylor intorno a $x_0$:
\[f(x) \approx f(x_0) - \frac{|f''(x_0)|}{2}(x-x_0)^2 + \ldots \]

Sostituendo nell'integrale:
\[I \approx \int_a^b dx \, e^{N f(x_0) - N \frac{|f''(x_0)|}{2}(x-x_0)^2} = e^{N f(x_0)} \int_a^b dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} \]

Siccome è un massimo ricordiamo che la derivata seconda deve essere negativa, per questo si esplicita il segno e si mette il modulo. Poiché l'integrando è fortemente piccato intorno a $x_0$, possiamo estendere i limiti di integrazione a $\pm \infty$ introducendo un errore trascurabile:

\[ I \approx e^{N f(x_0)} \int_{-\infty}^{\infty} dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} = e^{N f(x_0)} \sqrt{\frac{2\pi}{N |f''(x_0)|}}\]

Questa è l'approssimazione di Laplace. L'errore commesso è tipicamente dell'ordine di $O(1/N)$. Si noti che l'estensione dei limiti di integrazione a $\pm \infty$ è lecita perché, dato che $N$ è molto grande, l'integrando decresce molto rapidamente allontanandosi da $x_0$. I contributi dalle regioni lontane da $x_0$ sono quindi trascurabili.

Estensione dei limiti di integrazione nell'approssimazione di Laplace

Nella dimostrazione dell'approssimazione di Laplace, un passaggio cruciale consiste nell'estendere i limiti di integrazione da $[a,b]$ a $(-\infty,+\infty)$. Vediamo perché questo passaggio è giustificato e quale errore introduce. L'estensione a tutto l'asse reale dell'integrale può essere scritta come:
\[ \int_a^b dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} &= \int_{-\infty}^{+\infty} dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} - \int_{-\infty}^a dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} - \int_b^{+\infty} dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} \]

Per stimare l'errore introdotto, consideriamo per esempio l'integrale da $b$ a $+\infty$. Poiché l'integrando decresce esponenzialmente con $(x-x_0)^2$, il valore di questo integrale sarà dominato dai punti vicini a $b$:
\[ \int_b^{+\infty} dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} \approx \Delta x \, e^{-N \frac{|f''(x_0)|}{2}(b-x_0)^2} \]

dove $\Delta x$ è un piccolo intervallo. Per $N$ grande, questo termine diventa estremamente piccolo se $b$ è anche solo moderatamente distante da $x_0$, ovvero se $(b-x_0)$ è dell'ordine di qualche volta $1/\sqrt{N}$. Un ragionamento analogo vale per l'integrale da $-\infty$ ad $a$. Quindi, per $N$ sufficientemente grande, l'errore introdotto dall'estensione dei limiti diventa trascurabile rispetto al valore dell'integrale su tutto l'asse reale, che è:
\[\int_{-\infty}^{+\infty} dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} = \sqrt{\frac{2\pi}{N |f''(x_0)|}}\]

L'integrale gaussiano su tutto l'asse reale è ben noto e facilmente calcolabile, questo è il vantaggio di questa estensione. In conclusione, l'errore commesso estendendo i limiti di integrazione decresce esponenzialmente con $N$, rendendo questa approssimazione estremamente accurata per $N$ grande. Inoltre questo giustifica la richiesta di $N$ grande fatta nell'approssimazione di Laplace.

Applicazione: Formula di Stirling

Un'applicazione importante dell'approssimazione di Laplace è la derivazione della formula di Stirling per il fattoriale:
\[n! \approx \sqrt{2\pi n} \left(\frac{n}{e}\right)^n\]

Per dimostrare questa formula, partiamo dalla rappresentazione integrale del fattoriale tramite la funzione gamma di Eulero:
\[n! = \Gamma(n+1) = \int_0^{\infty} dt \, t^n e^{-t}\]

Possiamo riscrivere l'integrando come:
\[t^n e^{-t} = e^{n \ln t - t} \]

Definiamo quindi $f(t) = \ln t - \frac{t}{n}$. Quindi per trovare il punto di massimo, calcoliamo:
\[f'(t) = \frac{1}{t} - \frac{1}{n} = 0 \Rightarrow t_0 = n \]

Mentre la derivata seconda in $t_0$ è:
\[ f''(t_0) = -\frac{1}{t_0^2} = -\frac{1}{n^2} \]

Applicando l'approssimazione di Laplace:
\[n! \approx e^{n f(n)} \sqrt{\frac{2\pi}{n |f''(n)|}} = e^{n \ln n - n} \sqrt{2\pi n} = \sqrt{2\pi n} \left(\frac{n}{e}\right)^n \]

Questa è la formula di Stirling, che fornisce un'approssimazione molto accurata per $n!$ quando $n$ è grande.

Connessioni con la Meccanica Statistica

I concetti probabilistici che abbiamo discusso sono fondamentali per la meccanica statistica. Vediamo alcune delle connessioni più importanti:

  1. La legge dei grandi numeri giustifica il comportamento macroscopico deterministico di sistemi composti da un grande numero di particelle. Ad esempio, la pressione di un gas, che è il risultato medio di innumerevoli urti delle molecole contro le pareti del recipiente, ha fluttuazioni trascurabili rispetto al suo valore medio.
  2. Il teorema del limite centrale spiega perché le fluttuazioni delle variabili macroscopiche attorno ai loro valori di equilibrio seguono distribuzioni gaussiane. Questo è alla base della teoria delle fluttuazioni in meccanica statistica.
  3. L'approssimazione di Laplace è essenziale per valutare le somme e gli integrali che appaiono nel calcolo delle funzioni di partizione, permettendo di derivare le equazioni di stato e altre proprietà termodinamiche dei sistemi.
  4. La formula di Stirling è cruciale per calcolare l'entropia di Boltzmann $S = k_B \ln W$, dove $W$ è il numero di microstati compatibili con un dato macrostato. La convergenza di questa entropia con quella termodinamica per sistemi con $N$ grande è un altro esempio dell'importanza dei teoremi limite in meccanica statistica.

Conclusione

I fondamenti probabilistici che abbiamo esplorato in questo articolo costituiscono il linguaggio matematico indispensabile per comprendere la meccanica statistica. Grazie a strumenti come le disuguaglianze di Chebyshev e Markov, la legge dei grandi numeri, il teorema del limite centrale e l'approssimazione di Laplace, possiamo costruire un ponte solido tra il comportamento microscopico, intrinsecamente casuale, e il comportamento macroscopico, apparentemente deterministico, della materia. La bellezza della meccanica statistica risiede proprio in questa capacità di unificare due descrizioni apparentemente inconciliabili attraverso il potente linguaggio della probabilità e della statistica. Comprendere questi fondamenti non solo arricchisce la nostra conoscenza teorica, ma fornisce anche gli strumenti pratici per affrontare problemi complessi in fisica, chimica e oltre. In un prossimo articolo, vedremo come questi concetti si applicano concretamente alla derivazione delle distribuzioni di equilibrio in meccanica statistica e alle loro conseguenze per la termodinamica.