24 Statistique Bayésienne
24.1 Introduction
L’objectif du point de vue bayésien est de quantifier l’incertitude sur le paramètre à estimer en le traitant comme une variable aléatoire. Au lieu de considérer un paramètre \(\theta\) fixé, on introduit une loi de probabilité \(\pi\) sur \(\Theta\) (la loi a priori), puis on met à jour cette connaissance à partir des observations via la formule de Bayes.
Dans cette section, on se place dans un cadre général : on observe une variable aléatoire \(X\) qui dépend du paramètre \(\theta\) ; la loi de \(X\) conditionnellement à \(\theta\) a pour densité (ou masse) \(p_\theta(x)\) par rapport à une mesure de référence.
24.2 Définitions
Définition 24.1 (Loi a priori) Une loi a priori est une mesure de probabilité \(\pi\) sur l’ensemble des paramètres \(\Theta\).
Cette loi mesure notre connaissance sur le paramètre \(\theta\) avant de voir les données. Typiquement, si l’on est sûr que le « vrai » paramètre est égal à \(0\), alors la loi a priori est une masse de Dirac en \(0\). Si l’on est sûrs que le « vrai » paramètre est dans un ensemble \(A \subset \Theta\), alors la loi a priori aura toute sa masse sur \(A\).
Étant donné une rélisation \(\theta\) de \(\pi\), on génère un échantillon \(X \sim p_\theta\). À ce stade, il y a deux niveaux d’aléas :
- l’aléa sur le paramètre \(\theta\),
- puis l’aléa sur la variable \(X\) conditionnellement à \(\theta\).
Définition 24.2 (Loi marginale, loi a posteriori) La loi de \(X\) s’appelle la loi marginale de \(X\), et on la note abusivement \(p(X)\). Elle est donnée par \[p(X) = \int_\Theta p_\theta(X) \pi(\theta) d\theta.\]
La loi de \(\theta\) sachant \(X\) s’appelle la loi a posteriori et on la note abusivement \(p(\theta \mid X)\). La formule de Bayes dit que
\[p(\theta \mid X) = \frac{p_\theta(X) \pi(\theta)}{p(X)}.\]
La loi a posteriori donne en quelque sorte la distribution de probabilité sur le paramètre \(\theta\) qui est la plus compatible avec les données observées \(X\). À partir de cette interprétation, l’analogue de l’estimateur du maximum de vraisemblance est quasiment immédiate.
Définition 24.3 L’estimateur du Maximum A Posteriori, s’il existe, est \[\hat{\theta}_{\text{MAP}} = \arg \max_{\theta} p(\theta \mid X).\]
L’estimateur MAP n’est pas forcément l’outil le plus pertinent lorsqu’on adopte le point de vue bayésien sur les statistiques. - pas de mesure de risque - le mode n’est pas forcément le point le plus probable de la loi a posteriori - pas invariant par reparamétrisation, contrairement à l’EMV (expliquer l’exemple de Michael Jordan)
24.3 Exemples
Normal-Normale
On veut estimer un paramètre réel \(\theta\). On pose : \[\theta\sim N(\mu_0,\tau_0^2),\qquad X\mid \theta\sim N(\theta,\sigma^2),\] où \(\sigma^2\) est supposée connue.
La densité a priori est proportionnelle à \(\exp\!\left(-\frac{(\theta-\mu_0)^2}{2\tau_0^2}\right)\) et la vraisemblance à \[p_\theta(x)\propto \exp\!\left(-\frac{(x-\theta)^2}{2\sigma^2}\right).\] Donc, par Bayes, \[Q_x(d\theta)\propto \exp\!\left(-\frac{(x-\theta)^2}{2\sigma^2}-\frac{(\theta-\mu_0)^2}{2\tau_0^2}\right)\,d\theta.\]
En complétant le carré, on obtient une loi normale : \[\theta\mid X=x\sim \mathscr{N}(\mu_n,\tau_n^2),\] avec \[\tau_n^2=\left(\frac{1}{\tau_0^2}+\frac{1}{\sigma^2}\right)^{-1},\qquad \mu_n=\tau_n^2\left(\frac{\mu_0}{\tau_0^2}+\frac{x}{\sigma^2}\right).\]
Dans le cas de \(n\) observations i.i.d. \(X_1,\dots,X_n\) telles que \(X_i\mid\theta\sim \mathscr{N}(\theta,\sigma^2)\), la même conjugaison donne \[\tau_n^2=\left(\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}\right)^{-1},\qquad \mu_n=\tau_n^2\left(\frac{\mu_0}{\tau_0^2}+\frac{n\bar X}{\sigma^2}\right).\]
Beta-Bernoulli
On suppose que \(\theta\in(0,1)\) et \[X\mid\theta\sim \mathrm{Bernoulli}(\theta).\] On choisit comme loi a priori une loi Beta : \[\theta\sim \mathrm{Beta}(a,b)\quad (a>0,\ b>0),\] dont la densité (par rapport à Lebesgue) est proportionnelle à \[\theta^{a-1}(1-\theta)^{b-1}.\]
Si \(x=1\), alors la vraisemblance est proportionnelle à \(\theta\) et donc la loi a posteriori est proportionnelle à \[\theta^{a}(1-\theta)^{b-1},\] ce qui correspond à \[\theta\mid X=1\sim \mathrm{Beta}(a+1,b).\]
Si \(x=0\), de même on obtient \[\theta\mid X=0\sim \mathrm{Beta}(a,b+1).\]
Plus généralement, si on observe \(n\) Bernoulli indépendantes, et si \(K\) est le nombre de succès, alors \[\theta\mid (K=k)\sim \mathrm{Beta}(a+k,\ b+n-k).\] :::
Gamma-Poisson
On suppose \(\theta>0\) et \[X\mid\theta\sim \mathrm{Poisson}(\theta).\] On choisit une loi Gamma de paramètre taux \(\beta>0\) : \[\theta\sim \mathrm{Gamma}(\alpha,\beta),\] de densité proportionnelle à \[\theta^{\alpha-1}e^{-\beta\theta},\] où \(\alpha>0\).
La vraisemblance est proportionnelle à \[p_\theta(x)\propto e^{-\theta}\theta^x.\] Donc, par Bayes, \[Q_x(d\theta)\propto \theta^{\alpha-1+x}e^{-(\beta+1)\theta}\,d\theta,\] et on reconnaît encore une loi Gamma : \[\theta\mid X=x\sim \mathrm{Gamma}(\alpha+x,\ \beta+1).\]
Avec \(n\) observations i.i.d. \(X_1,\dots,X_n\) de somme \(S=\sum_{i=1}^n X_i\), on obtient \[\theta\mid (X_1,\dots,X_n)\sim \mathrm{Gamma}(\alpha+S,\ \beta+n).\]
24.4 Risque Bayésien
Le risque bayésien d’ordre \(p\) d’un estimateur \(T\) est la moyenne de son erreur quadratique, à savoir \[r_\pi(T) = \mathbb{E}_{\theta, X} [|T(X)- \theta|^p].\] Si \(p=2\), on parle de risque quadratique, et si \(p=1\), on parle de risque \(L^1\). En fait, on pourrait définir ce risque pour n’importe quelle fonction de perte, et pas seulement pour la norme \(L^p\) : par exemple, \(\ln|x-y|\). Mais les normes \(L^p\) sont amplement suffisantes pour exposer la plupart des résultats, donc je m’y tiendrai.
Les estimateurs qui ont le plus petit risque bayésien sont appelés estimateurs de Bayes. Ils vérifient donc \[T^\star(x)\in \arg \min_T r_\pi(T)\] où le minimum est pris sur l’ensemble des estimateurs.
Le risque bayésien de \(T\) peut aussi se calculer conditionnellement aux observations : dans ce cas on parle de risque a posteriori, \[r_\pi(T\mid X) = \mathbb{E}_{\theta} [|T(X) - \theta|^2 \mid X].\] Cela peut simplement se récrire \[\int_\Theta |T(X) - \theta|^2 p(\theta \mid X) \pi(\theta)d\theta.\]
Théorème 24.1 Si \(\theta\) est de carré intégrable, alors \(\mathbb{E}[\theta \mid X]\) est un estimateur de Bayes pour \(p=2\).
Dans le cas où \(\theta\) est réel (\(d=1\)) et intégrable, alors la médiane de la loi a posteriori \(p(\theta\mid X)\) est un estimateur de Bayes pour \(p=1\).
Preuve. L’espérance conditionnelle de \(\theta\) sachant \(X\) est la projection \(L^2\) de \(\theta\) sur l’espace des fonctions mesurables de \(X\) dans \(\Theta\). Donc c’est précisément l’estimateur qui minimise \[\mathbb{E}[|\theta - T(X)|^2].\]
24.5 Classification bayésienne
ROC curve, F scores , FDR