$$ \newcommand{\bx}{\boldsymbol{x}} \newcommand{\bt}{\boldsymbol{\theta}} \newcommand{\bmu}{\boldsymbol{\mu}} \newcommand{\dkl}{\mathrm{d}_{\mathrm{KL}}} \newcommand{\dtv}{\mathrm{d}_{\mathrm{TV}}} \newcommand{\emv}{\hat{\theta}_{\mathrm{emv}}} \newcommand{\ent}{\mathrm{Ent}} \newcommand{\tr}{\mathrm{tr}} $$

23  Choix d’un a priori

La principale faiblesse de la statistique bayésienne était, est et sera toujours le choix d’un a priori, auquel la théorie est particulièrement sensible1. Lors d’une analyse statistique, la première étape consiste à choisir cet a priori \(\pi(\theta)\) de façon à encoder notre connaissance sur le paramètre \(\theta\) ; mais cette connaissance peut être floue, mal définie, impossible à modéliser, voire tout simplement inconnue. Ce chapitre passe en revue quelques méthodes de choix et leurs limites.

23.1 Le principe de Laplace

Lorsqu’il n’y a aucune connaissance a priori sur le paramètre, il n’y a pas de raison de donner à certains \(\theta\) une probabilité plus grande qu’une autre. Par conséquent, il est naturel de choisir comme a priori une loi uniforme sur l’espace des paramètres. Ce choix est souvent appelé principe de Laplace ; il peut sembler raisonnable, et il l’est à certains égards ; mais à y regarder de plus près, on se rend compte qu’il porte en lui des effets indésirables.

Exemple 23.1 Considérons le cas d’un modèle de Bernoulli, avec paramètre \(\theta \in [0,1]\). Si l’on veut estimer \(\theta\), tout va bien, l’a-priori uniforme ne favorise aucun \(\theta\) en particulier. Mais peut-être que l’on veut estimer autre chose qui dépend de \(\theta\), comme par exemple \(\nu=\theta^2\), la probabilité de gagner deux fois de suite. Or, dans ce cas, la loi de \(\nu\) peut se calculer par la formule du changement de variable : si l’on note \(\rho\) la densité de \(\nu\), alors \[\rho(t) = \frac{1}{2\sqrt{s}}\mathrm{d}s.\] Ceci est une loi bêta, \(B(1/2, 1)\). Ce n’est plus du tout une loi uniforme sur l’espace des paramètres de \(\nu\), qui est encore \([0,1]\).

Dans cet exemple, l’a priori uniforme ne reste pas uniforme lorsqu’on reparamétrise le modèle : en posant \(\eta=\theta^2\), cet a priori favorise les petites valeurs de \(\eta\) sans que nous l’ayons réellement voulu. Un bon a priori devrait donc être aussi invariant que possible par les reparamétrisations du paramètre.

Notons \(\pi\) une densité sur l’espace des paramètres \(\Theta\). La formule du changement de variables dit que, si \(\varphi\) est un difféomorphisme de \(\Theta\), alors la densité de la mesure image de \(\pi\) par \(\varphi\), à savoir la mesure définie par \(\nu(A) = \pi(\varphi^{-1}(A))\), est donnée par \[\nu(\eta) = \pi(\varphi^{-1}(\eta))|\det(D_{\varphi^{-1}}(\eta))|. \tag{23.1}\]

En choisissant l’a priori uniforme et en utilisant le fait que \(D_{\varphi^{-1}}(\eta) = D_\varphi(\varphi^{-1}(\eta))^{-1}\), on voit qu’en toute généralité, l’a priori pour la reparamétrisation \(\eta=\varphi(\theta)\) est donné par \[\nu(\eta) = \frac{1}{|\det(D_\varphi(\varphi^{-1}(\eta)))|}.\] Celui-ci n’est en général pas uniforme.

23.2 Le principe de Jeffreys

Le principe de Jeffreys dit que la construction d’un a priori ne doit pas dépendre de la reparamétrisation choisie. Cette notion d’invariance assez subtile n’a essentiellement qu’une seule solution.

Théorème 23.1 Soit \((p_\theta)_{\theta \in \Theta}\) un modèle statistique. L’a priori de Jeffreys est la mesure \[\pi(\theta) = \sqrt{\det(I(\theta))}\]\(I(\theta)\) es l’information de Fisher. Cette mesure est « invariante » par les reparamétrisations du modèle, au sens où si \(\varphi\) est un difféomorphisme de \(\Theta\) dans lui-même, alors l’a priori de Jeffreys dans le modèle reparamétrisé \((p_{\varphi(\theta)})_{\theta \in \Theta}\) est égal à l’information de Fisher du modèle reparamétrisé, \(I_\varphi(\theta)\).

Lois impropres. J’ai évité d’utiliser le mot “densité de probabilité” pour parler de l’a priori de Jeffreys, parce que la mesure \(\pi\) n’est peut-être pas une mesure de probabilité, et ne peut pas non plus être normalisée pour en être une. C’est typiquement le cas lorsque \(\int \det I(\theta) d\theta = +\infty\).

Est-ce vraiment une invariance ? L’a priori de Jeffreys n’est pas stricto sensu invariant par les reparamétrisations : l’information du modèle reparamétrisé, \(I_\varphi(\theta)\), n’est en général pas égale à l’information du modèle original, \(I(\theta)\). cependant, sa représentation est invariante, au sens où quel que soit le modèle, cet a priori sera toujours égal à l’information de Fisher du modèle, quelle que soit la reparamétrisation. En son temps, Jeffreys parlait de « principe » : le principe qui gouverne la construction de l’a priori doit être indépendant de la reparamétrisation. Le principe de Laplace ( « l’a priori doit être uniforme sur l’ensemble des possibles »)ne l’est pas, comme nous l’avons vu plus haut.

Preuve. Notons \(\nu\) la mesure image de \(\pi\) par \(\varphi\). La formule du changement de variables (Équation 23.1) dit que \[\begin{align*} \nu(\eta) &= \pi(\varphi^{-1}(\eta))|\det(D_{\varphi^{-1}}(\eta))|.\\ &= \sqrt{\det(I(\varphi^{-1}(\eta)))} \left| \det(D_{\varphi^{-1}}(\eta))\right|. \end{align*}\]

Or, la formule de reparamétrisation de l’information de Fisher (Théorème 17.2) dit que l’information de Fisher \(I’(\theta)\) du modèle reparamétrisé \((p_{\varphi^{-1}(\eta)})\) est donnée \[I’(\eta) = D_{\varphi^{-1}}(\eta)^\top I(\varphi^{-1}(\eta)) D_{\varphi^{-1}(\eta)}\]\(D_{\varphi^{-1}}(\eta)\) est la matrice jacobienne de \(\varphi^{-1}\) en \(\eta\). Par conséquent, \[\det(I’(\eta)) = \det(I(\varphi^{-1}(\eta)))\det(D_{\varphi^{-1}}(\eta)^{2})\] et donc \[\sqrt{\det(I(\varphi^{-1}(\eta)))} = \sqrt{\det(I’(\eta))}\det(D_{\varphi^{-1}}(\eta))^{-1}.\] On en déduit que \(\nu(\eta)\) est égal à \(\sqrt{\det(I’(\eta))}\), qui est l’a priori de Jeffreys du modèle reparamétrisé.

Exemple 23.2 Prenons l’exemple des lois gaussiennes centrées, \(\mathscr{N}(0,v)\), paramétrisées par leur variance \(v>0\). La log-vraisemblance est égale à \(-\frac{1}{2}\ln(2\pi v)- \frac{x^2}{2v}\), et donc le score est égal à \(\frac{x^2}{2v^2} - \frac{1}{2v}\). L’information de Fisher dans ce modèle est donnée par \[I(v) = \mathrm{Var}\left[\frac{X^2}{2v^2}\right] = \frac{1}{2v^2}.\] L’a priori de Jeffreys est donc égal à \[\pi(v) = \sqrt{\frac{1}{2v^2}} = \frac{1}{v\sqrt{2}}.\] Il n’est pas intégrable.

23.3 Principe de Jaynes

Il existe un dernier choix d’importance pour le choix d’un a priori non-informatif, dû à Edwin Jaynes. Son raisonnement est le suivant : notre connaissance a priori sur le paramètre \(\theta\) doit se formuler sous la forme d’un ensemble de contraintes. Par exemple, on peut supposer que \(\theta\) est borné, que sa variance est 1, etc. On peut encoder cette connaissance sous la forme d’une contrainte linéaire : la loi de \(\theta\) doit satisfaire \[\int T(\theta) \pi(\theta) d\theta = c\] pour une certaine constante \(c\). La distribution la moins informative qui satisfait ces contraintes est précisément la loi qui maximise l’entropie sous contrainte, et le principe de Boltzmann-Gibbs (Théorème 19.1) nous dit que cette loi est la loi exponentielle associée à \(T\). Par exemple, si l’on sait que \(\theta\) est centré et fluctue dans un intervalle borné, on ne perd pas grand chose à supposer que \(\pi\) doit être centré réduit. La loi la moins informative qui satisfait cette contrainte est donc la loi exponentielle associée à la statistique \(T(\theta) = \theta\), à savoir la loi \(\mathscr{N}(0,1)\).

23.4 Le principe de conjugaison

Les principes énoncés ci-dessus sont plutôt philosophiques, au sens où ne relèvent pas de considérations purement mathématiques. Cependant, puisque le choix d’une loi a priori est tout à fait libre, on pourrait aussi faire le choix de familles de lois qui simplifient les calculs, pourvu que ça ne soit pas au détriment de la richesse du modèle. C’est en fait souvent la méthode la plus raisonnable.

Définition 23.1 (Famille conjuguée) Soit \((p_\theta)_{\theta \in \Theta}\) un modèle statistique. Une famille de lois \(\mathscr{F}\) sur \(\Theta\) est dite conjuguée au modèle \((p_\theta)\) si, pour tout a priori \(\pi \in \mathscr{F}\) et toute observation \(x\), la loi a posteriori \(p(\theta \mid x)\) est encore dans \(\mathscr{F}\).

L’intérêt est immédiat : si l’on choisit un a priori dans une famille conjuguée, la loi a posteriori reste dans la même famille, et il suffit de mettre à jour les paramètres de l’a priori. Il n’y a pas besoin de recalculer une intégrale compliquée pour normaliser.

Nous avons déjà rencontré un exemple de conjugaison. Dans le modèle \(\mathrm{Ber}(\theta)\) avec un a priori uniforme \(\pi(\theta)=1\) (c’est-à-dire une loi \(\mathrm{Beta}(1,1)\)), nous avons vu que la loi a posteriori est une loi \(\mathrm{Beta}(s+1, n-s+1)\). Ce résultat s’étend immédiatement à un a priori \(\mathrm{Beta}(a,b)\) quelconque.

Exemple 23.3 (Bêta-Bernoulli) On observe \(X_1, \dotsc, X_n\) iid \(\mathrm{Ber}(\theta)\) et on choisit l’a priori \(\theta \sim \mathrm{Beta}(a,b)\), de densité \(\pi(\theta) \propto \theta^{a-1}(1-\theta)^{b-1}\). Alors la loi a posteriori est \[p(\theta \mid x_1, \dotsc, x_n) \propto \theta^{s+a-1}(1-\theta)^{n-s+b-1}\] soit la loi \(\mathrm{Beta}(a+s, b+n-s)\), où \(s = \sum x_i\). L’estimateur de la moyenne a posteriori est \[\hat{\theta}_{\mathrm{MMSE}} = \frac{a + s}{a+b+n}.\]

Les paramètres \(a\) et \(b\) s’interprètent comme des « pseudo-observations » : tout se passe comme si, avant de voir les données, on avait déjà observé \(a-1\) succès et \(b-1\) échecs.

Exemple 23.4 (Gamma-Poisson) On observe \(X_1, \dotsc, X_n\) iid de loi \(\mathrm{Poisson}(\lambda)\) et on choisit l’a priori \(\lambda \sim \Gamma(\alpha, \beta)\), de densité \(\pi(\lambda) \propto \lambda^{\alpha-1}e^{-\beta \lambda}\). La vraisemblance est proportionnelle à \(\lambda^{s} e^{-n\lambda}\) avec \(s = \sum x_i\). La loi a posteriori est alors \[p(\lambda \mid x_1, \dotsc, x_n) \propto \lambda^{s + \alpha - 1} e^{-(n+\beta)\lambda}\] et on reconnaît la loi \(\Gamma(\alpha + s, \beta + n)\). L’estimateur de la moyenne a posteriori est \[\hat{\lambda}_{\mathrm{MMSE}} = \frac{\alpha + s}{\beta + n}.\]

Exemple 23.5 (Normale-Normale) On observe \(X_1, \dotsc, X_n\) iid \(\mathscr{N}(\mu, \sigma^2)\) avec \(\sigma^2\) connu, et on choisit l’a priori \(\mu \sim \mathscr{N}(\mu_0, \tau^2)\). La loi a posteriori est alors \(\mathscr{N}(\mu_n, \sigma_n^2)\) avec \[\mu_n = \frac{\frac{\mu_0}{\tau^2} + \frac{n\bar{x}}{\sigma^2}}{\frac{1}{\tau^2} + \frac{n}{\sigma^2}}, \qquad \sigma_n^2 = \frac{1}{\frac{1}{\tau^2} + \frac{n}{\sigma^2}}.\]

L’estimateur de Bayes \(\mu_n\) est une moyenne pondérée entre la moyenne a priori \(\mu_0\) et la moyenne empirique \(\bar{x}\), les poids étant donnés par les précisions (inverses des variances). Plus il y a d’observations, plus le poids de \(\bar{x}\) est important ; et quand \(n\to \infty\), \(\mu_n \to \bar{x}\) et \(\sigma_n^2 \to 0\), de sorte que la loi a posteriori se concentre autour de la moyenne empirique, quelle que soit la loi a priori.

Ce n’est pas un hasard si les exemples ci-dessus font tous intervenir des modèles exponentiels. En fait, les modèles exponentiels admettent toujours une famille conjuguée naturelle.

Théorème 23.2 Dans un modèle exponentiel de la forme \(p_\theta(x) = e^{\langle \theta, T(x)\rangle - F(\theta)}\) avec \(F(\theta) = \ln Z(\theta)\), la famille de lois a priori \[\pi_{\nu,\lambda}(\theta) \propto e^{\langle \nu, \theta \rangle - \lambda F(\theta)}, \qquad \nu \in \mathbb{R}^p, \, \lambda > 0\] est conjuguée au modèle.

Si l’on observe \(x_1, \dotsc, x_n\) iid de loi \(p_\theta\), le choix de loi a priori \(\pi_{\nu_0,\lambda_0}\) donne une loi a posteriori \(\pi_{\nu_1, \lambda_1}\) avec \[\nu_1 = \nu_0 + \sum_{i=1}^n T(x_i), \qquad \lambda_1 = \lambda_0 + n.\]

Preuve. La vraisemblance s’écrit \(\prod_{i=1}^n p_\theta(x_i) = e^{\langle \theta, \sum T(x_i)\rangle - nF(\theta)}\). En multipliant par l’a priori, on obtient \[p(\theta \mid x_1, \dotsc, x_n) \propto e^{\langle \nu + \sum T(x_i), \theta \rangle - (\lambda + n) F(\theta)}\] qui est bien de la même forme que \(\pi_{\nu_0,\lambda_0}\) avec les paramètres \(\nu_1 = \nu_0 + \sum_{i=1}^n T(x_i)\) et \(\lambda_1 = \lambda_0 + n\).

Le tableau suivant résume les principales lois conjuguées.

Modèle A priori A posteriori
\(\mathrm{Ber}(\theta)\) \(\mathrm{Beta}(a,b)\) \(\mathrm{Beta}(a+s, b+n-s)\)
\(\mathrm{Poisson}(\lambda)\) \(\Gamma(\alpha, \beta)\) \(\Gamma(\alpha + s, \beta + n)\)
\(\mathscr{N}(\mu, \sigma^2)\), \(\sigma^2\) connu \(\mathscr{N}(\mu_0, \tau^2)\) \(\mathscr{N}(\mu_n, \sigma_n^2)\)
\(\mathrm{Exp}(\lambda)\) \(\Gamma(\alpha, \beta)\) \(\Gamma(\alpha + n, \beta + s)\)
\(\mathscr{N}(\mu, \sigma^2)\), \(\mu\) connu \(\Gamma^{-1}(\alpha, \beta)\) \(\Gamma^{-1}(\alpha + n/2, \beta + \sum(x_i - \mu)^2/2)\)

  1. C’était d’ailleurs la grande critique adressée par Ronald Fisher à la statistique bayésienne dans les années 30.↩︎