La meccanica statistica rappresenta un ponte fondamentale tra il comportamento microscopico e macroscopico della materia. Per comprenderla appieno, è necessario padroneggiare alcuni concetti probabilistici essenziali che permettono di descrivere il comportamento collettivo di un grande numero di particelle. In questo articolo, esploreremo i fondamenti matematici che stanno alla base della meccanica statistica, partendo dalle disuguaglianze fondamentali fino ad arrivare ai teoremi limite e alle tecniche di approssimazione che trovano applicazione nelle distribuzioni di equilibrio. La prima parte della base matematica necessaria per affrontare questo corso è stata trattata in fondamenti di probabilità 1.0. La bellezza della meccanica statistica risiede proprio nel suo utilizzo della probabilità per spiegare fenomeni fisici complessi. Vedremo come, attraverso strumenti matematici relativamente semplici, si possa dare senso a comportamenti macroscopici apparentemente deterministici, partendo da una descrizione probabilistica dei componenti microscopici.
La disuguaglianza di Čebyšëv rappresenta uno strumento fondamentale che ci permette di stimare quanto sia probabile che una variabile aleatoria si discosti significativamente dal suo valore medio. In termini formali, possiamo enunciarla come:
\begin{equation*}
P(|x-\mu| > \varepsilon) \leq \frac{\sigma^2}{\varepsilon^2}
\end{equation*}
dove $x$ è una variabile aleatoria con media $\mu$ e varianza $\sigma^2$, mentre $\varepsilon$ è un valore positivo arbitrario.
La dimostrazione di questa disuguaglianza è particolarmente illuminante. Osserviamo che:
\[|x-\mu| > \varepsilon \Rightarrow \frac{|x-\mu|}{\varepsilon} > 1 \Rightarrow \frac{(x-\mu)^2}{\varepsilon^2} > 1\]
Possiamo quindi scrivere:
\[P(|x-\mu| > \varepsilon) = \int_{-\infty}^{-\varepsilon+\mu} p(x) dx + \int_{\varepsilon+\mu}^{\infty} p(x) dx\]
Siccome $\int_{-\varepsilon+\mu}^{\varepsilon+\mu} p(x) dx\geq 0$, possiamo scrivere quanto segue:
\[P(|x-\mu| > \varepsilon)\leq \int_{-\infty}^{\infty} p(x) dx \leq \int_{-\infty}^{\infty} \frac{(x-\mu)^2}{\varepsilon^2} p(x) dx = \frac{1}{\varepsilon^2} \int_{-\infty}^{\infty} (x-\mu)^2 p(x) dx = \frac{\sigma^2}{\varepsilon^2}\]
dove nel secondo passaggio abbiamo usato il fatto che $\frac{(x-\mu)^2}{\varepsilon^2} > 1$. Questo dimostra il lemma di Čebyšëv. La disuguaglianza di Čebyšëv ci fornisce un limite superiore alla probabilità di trovare valori molto distanti dalla media, e questo limite è indipendente dalla forma specifica della distribuzione di probabilità, dipendendo solo dalla varianza e diventa sempre più piccolo man mano che ci si allontana dal valore aspettato.
Un'altra disuguaglianza importante è quella di Markov, che rappresenta una generalizzazione e si può esprimere come:
\[P(|x| \geq \varepsilon) \leq \frac{\langle |x|^n \rangle}{\varepsilon^n}\]
dove $\langle |x|^n \rangle$ rappresenta il momento di ordine $n$ della variabile aleatoria $x$. La dimostrazione segue un percorso simile a quella di Čebyšëv, ma generalizzata per momenti di ordine superiore. Queste disuguaglianze sono particolarmente utili in meccanica statistica quando si vuole stimare la probabilità di fluttuazioni significative rispetto ai valori di equilibrio.
La legge dei grandi numeri rappresenta uno dei pilastri della teoria della probabilità e della meccanica statistica. Essa afferma che, sotto appropriate ipotesi, la media aritmetica di un grande numero di variabili aleatorie indipendenti tende a convergere al valore atteso teorico.
Formalmente, se consideriamo una successione di variabili aleatorie indipendenti $x_1, x_2, \ldots, x_N$ con media finita $\mu$ e varianza finita $\sigma^2$, definiamo la media campionaria:
\[y_N = \frac{1}{N} \sum_{k=1}^{N} x_k\]
La legge dei grandi numeri (nella sua forma debole) afferma che:
\[P(|y_N - \mu| > \varepsilon) \xrightarrow{N \to \infty} 0\]
per ogni $\varepsilon > 0$.
Per dimostrare questo teorema, calcoliamo innanzitutto il valore atteso di $y_N$:
\[\langle y_N \rangle = \frac{1}{N} \sum_{k=1}^{N} \langle x_k \rangle = \frac{1}{N} \sum_{k=1}^{N} \mu_k = \mu \]
quindi abbiamo chiamato la media dei valori attesi $\mu$.
Consideriamo ora la variabile $z_N = \sum_{k=1}^{N} x_k$, che ha valore atteso $\mu_z = \sum_{k=1}^{N} \mu_k = N\mu$. La varianza di $z_N$ è:
\begin{equation}
\sigma_z^2 &= \langle z_N^2 \rangle - \langle z_N \rangle^2 =\sum_{k=1}^{N} \langle x_k^2 \rangle + \sum_{k \neq l} \langle x_k x_l \rangle - \left(\sum_{k=1}^{N} \mu_k\right)^2 = \sum_{k=1}^{N} \langle x_k^2 \rangle + \sum_{k \neq l} \langle x_k \rangle \langle x_l \rangle - \sum_{k=1}^{N} \mu_k^2 -\sum_{k \neq l} \mu_k \mu_l
\begin{equation}
Dove abbiamo usato il fatto che le variabili siano indipendenti, cioè $\langle x_k x_l \rangle = \langle x_k \rangle \langle x_l \rangle = \mu_k \mu_l$ per $k \neq l$. In definitiva abbiamo trovato:
\[\sigma_z^2 = \sum_{k=1}^{N} \langle x_k^2 \rangle - \sum_{k=1}^{N} \mu_k^2 = \sum_{k=1}^{N} \sigma_k^2 = N\sigma^2 \]
Dato che $y_N = \frac{1}{N} z_N$, la probabilità che $y_N$ si discosti significativamente da $\mu$ è:
\[P(|y_N - \mu| > \varepsilon) = P\left(\left|\frac{z_N}{N} - \mu\right| > \varepsilon\right) = P(|z_N - N\mu| > N\varepsilon) = P(|z_N - \mu_z| > N\varepsilon) \]
Applicando la disuguaglianza di Čebyšëv:
\[P(|z_N - \mu_z| > N\varepsilon) \leq \frac{\sigma_z^2}{(N\varepsilon)^2} = \frac{N\sigma^2}{N^2\varepsilon^2} = \frac{\sigma^2}{N\varepsilon^2} \]
Quindi:
\[P(|y_N - \mu| > \varepsilon) \leq \frac{\sigma^2}{N\varepsilon^2} \xrightarrow{N \to \infty} 0 \]
Il che dimostra la legge dei grandi numeri.
Il teorema del limite centrale (TLC) rappresenta un altro risultato fondamentale in teoria della probabilità con profonde implicazioni per la meccanica statistica. Esso afferma che, sotto condizioni generali, la somma di un grande numero di variabili aleatorie indipendenti, adeguatamente normalizzata, tende a seguire una distribuzione gaussiana. Le ipotesi di media e varianza finite sono ancora richieste.
Più precisamente, consideriamo la variabile:
\[ w_N = \frac{1}{\sqrt{N}} \sum_{k=1}^{N} x_k\]
Il teorema del limite centrale afferma che, per $N$ sufficientemente grande, la distribuzione di probabilità delle $w$ tende a una distribuzione normale:
\[ P(w) \approx \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(w-\mu)^2}{2\sigma^2}\right) \]
dove $\mu$ è la media comune delle variabili $x_k$ e $\sigma^2$ è media della varianza delle varianze delle $x_k$.
Per semplicità, assumiamo che le variabili $X_k$ siano indipendenti e abbiano media nulla ($\mu = 0$). La densità di probabilità di $W_N$ può essere scritta come:
\[ P(w) = \int dx_1 \ldots dx_N \, P(x_1) \ldots P(x_N) \, \delta\left(w - \frac{1}{\sqrt{N}} \sum_{k=1}^{N} x_k\right) \]
Utilizzando la rappresentazione della delta di Dirac attraverso la sua trasformata di Fourier:
\[ \delta(x) = \int \frac{dq}{2\pi} e^{iqx} \]
otteniamo:
\[ P(w) = \int \frac{dq}{2\pi} e^{-iqw} \int dx_1 \ldots dx_N \, P(x_1) \ldots P(x_N) \, e^{i\frac{q}{\sqrt{N}} \sum_{k=1}^{N} x_k} \]
Poiché le variabili sono indipendenti e la sommatoria all'esponente diventa una produttoria, questo può essere riscritto come:
\[ P(w) = \int \frac{dq}{2\pi} e^{-iqw} \prod_{k=1}^{N} \int dx_k \, P(x_k) \, e^{iq\frac{x_k}{\sqrt{N}}} \]
Definiamo la trasformata di Fourier $\tilde{P}(q)$ di $P(x)$ come:
\[ \tilde{P}(q) = \int dx \, e^{iqx} \, P(x) \]
Come già detto questa trasformata prende il nome di funzione generatrice dei momenti della distribuzione. Per valori piccoli di $q$, possiamo sviluppare $\tilde{P}(q)$ in serie di Taylor:
\[\tilde{P}(q) = \int dx \, P(x) \, \left(1 + iqx - \frac{q^2 x^2}{2} + \ldots\right) = 1 - \frac{q^2 \sigma^2}{2} + \ldots \]
Adesso usiamo il fatto che $\int dx \, P(x) = 1$ e $\int dx \, x \, P(x) = 0$ (media nulla). Quindi possiamo scrivere:
\[\tilde{P}\left(\frac{q}{\sqrt{N}}\right) \approx 1 - \frac{q^2 \sigma^2}{2N} + \ldots \]
e:
\[ \prod_{k=1}^{N} \tilde{P}\left(\frac{q}{\sqrt{N}}\right) \approx \prod_{k=1}^{N} \left(1 - \frac{q^2 \sigma^2_k}{2N} + \ldots\right) \approx \prod_{k=1}^{N} \left(e^{-\frac{q^2 \sigma_k^2}{2N}}\right) = e^{\frac{q^2 \sum_{k=1}^N \sigma_k^2}{2N}}= e^{-\frac{q^2 \sigma^2}{2}} \]
Dove abbiamo definito $\sigma^2=\frac{1}{N}\sum_{k=1}^N \sigma_k^2$. Ciò implica:
\[P(w) \approx \int \frac{dq}{2\pi} e^{-iqW} e^{-\frac{q^2 \sigma^2}{2}} = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{w^2}{2\sigma^2}}\]
Questo dimostra che $w_N$ segue una distribuzione gaussiana con media 0 e varianza $\sigma^2$.
L'approssimazione di Laplace (o di picco) è una tecnica potente per calcolare integrali della forma:
\[ I = \int_a^b dx \, e^{N f(x)}\]
dove $N$ è un numero intero, e $f(x)$ è una funzione regolare definita sull'intervallo $[a,b]$ con un massimo all'interno di questo intervallo.
L'idea fondamentale è che, per $N$ grande, il valore dell'integrale sarà dominato dai contributi vicini al massimo della funzione $f(x)$. Se indichiamo con $x_0$ il punto in cui $f(x)$ raggiunge il suo massimo, possiamo sviluppare $f(x)$ in serie di Taylor intorno a $x_0$:
\[f(x) \approx f(x_0) - \frac{|f''(x_0)|}{2}(x-x_0)^2 + \ldots \]
Sostituendo nell'integrale:
\[I \approx \int_a^b dx \, e^{N f(x_0) - N \frac{|f''(x_0)|}{2}(x-x_0)^2} = e^{N f(x_0)} \int_a^b dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} \]
Siccome è un massimo ricordiamo che la derivata seconda deve essere negativa, per questo si esplicita il segno e si mette il modulo. Poiché l'integrando è fortemente piccato intorno a $x_0$, possiamo estendere i limiti di integrazione a $\pm \infty$ introducendo un errore trascurabile:
\[ I \approx e^{N f(x_0)} \int_{-\infty}^{\infty} dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} = e^{N f(x_0)} \sqrt{\frac{2\pi}{N |f''(x_0)|}}\]
Questa è l'approssimazione di Laplace. L'errore commesso è tipicamente dell'ordine di $O(1/N)$. Si noti che l'estensione dei limiti di integrazione a $\pm \infty$ è lecita perché, dato che $N$ è molto grande, l'integrando decresce molto rapidamente allontanandosi da $x_0$. I contributi dalle regioni lontane da $x_0$ sono quindi trascurabili.
Nella dimostrazione dell'approssimazione di Laplace, un passaggio cruciale consiste nell'estendere i limiti di integrazione da $[a,b]$ a $(-\infty,+\infty)$. Vediamo perché questo passaggio è giustificato e quale errore introduce. L'estensione a tutto l'asse reale dell'integrale può essere scritta come:
\[ \int_a^b dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} &= \int_{-\infty}^{+\infty} dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} - \int_{-\infty}^a dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} - \int_b^{+\infty} dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} \]
Per stimare l'errore introdotto, consideriamo per esempio l'integrale da $b$ a $+\infty$. Poiché l'integrando decresce esponenzialmente con $(x-x_0)^2$, il valore di questo integrale sarà dominato dai punti vicini a $b$:
\[ \int_b^{+\infty} dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} \approx \Delta x \, e^{-N \frac{|f''(x_0)|}{2}(b-x_0)^2} \]
dove $\Delta x$ è un piccolo intervallo. Per $N$ grande, questo termine diventa estremamente piccolo se $b$ è anche solo moderatamente distante da $x_0$, ovvero se $(b-x_0)$ è dell'ordine di qualche volta $1/\sqrt{N}$. Un ragionamento analogo vale per l'integrale da $-\infty$ ad $a$. Quindi, per $N$ sufficientemente grande, l'errore introdotto dall'estensione dei limiti diventa trascurabile rispetto al valore dell'integrale su tutto l'asse reale, che è:
\[\int_{-\infty}^{+\infty} dx \, e^{-N \frac{|f''(x_0)|}{2}(x-x_0)^2} = \sqrt{\frac{2\pi}{N |f''(x_0)|}}\]
L'integrale gaussiano su tutto l'asse reale è ben noto e facilmente calcolabile, questo è il vantaggio di questa estensione. In conclusione, l'errore commesso estendendo i limiti di integrazione decresce esponenzialmente con $N$, rendendo questa approssimazione estremamente accurata per $N$ grande. Inoltre questo giustifica la richiesta di $N$ grande fatta nell'approssimazione di Laplace.
Un'applicazione importante dell'approssimazione di Laplace è la derivazione della formula di Stirling per il fattoriale:
\[n! \approx \sqrt{2\pi n} \left(\frac{n}{e}\right)^n\]
Per dimostrare questa formula, partiamo dalla rappresentazione integrale del fattoriale tramite la funzione gamma di Eulero:
\[n! = \Gamma(n+1) = \int_0^{\infty} dt \, t^n e^{-t}\]
Possiamo riscrivere l'integrando come:
\[t^n e^{-t} = e^{n \ln t - t} \]
Definiamo quindi $f(t) = \ln t - \frac{t}{n}$. Quindi per trovare il punto di massimo, calcoliamo:
\[f'(t) = \frac{1}{t} - \frac{1}{n} = 0 \Rightarrow t_0 = n \]
Mentre la derivata seconda in $t_0$ è:
\[ f''(t_0) = -\frac{1}{t_0^2} = -\frac{1}{n^2} \]
Applicando l'approssimazione di Laplace:
\[n! \approx e^{n f(n)} \sqrt{\frac{2\pi}{n |f''(n)|}} = e^{n \ln n - n} \sqrt{2\pi n} = \sqrt{2\pi n} \left(\frac{n}{e}\right)^n \]
Questa è la formula di Stirling, che fornisce un'approssimazione molto accurata per $n!$ quando $n$ è grande.
I concetti probabilistici che abbiamo discusso sono fondamentali per la meccanica statistica. Vediamo alcune delle connessioni più importanti:
I fondamenti probabilistici che abbiamo esplorato in questo articolo costituiscono il linguaggio matematico indispensabile per comprendere la meccanica statistica. Grazie a strumenti come le disuguaglianze di Chebyshev e Markov, la legge dei grandi numeri, il teorema del limite centrale e l'approssimazione di Laplace, possiamo costruire un ponte solido tra il comportamento microscopico, intrinsecamente casuale, e il comportamento macroscopico, apparentemente deterministico, della materia. La bellezza della meccanica statistica risiede proprio in questa capacità di unificare due descrizioni apparentemente inconciliabili attraverso il potente linguaggio della probabilità e della statistica. Comprendere questi fondamenti non solo arricchisce la nostra conoscenza teorica, ma fornisce anche gli strumenti pratici per affrontare problemi complessi in fisica, chimica e oltre. In un prossimo articolo, vedremo come questi concetti si applicano concretamente alla derivazione delle distribuzioni di equilibrio in meccanica statistica e alle loro conseguenze per la termodinamica.