14 Maximum de vraisemblance
Dans cette section, on a fixé un modèle exponentiel1 associé au moment \(T\), et l’on dispose d’observations indépendantes \(x_1, \dotsc, x_n\) distribuées selon ce modèle. La densité de chaque observation par rapport à la mesure de référence \(\nu\) est donc par \(e^{\langle \theta, T(x_i)\rangle} / Z(\theta)\). En particulier, la densité de l’échantillon \(x=(x_1, \dotsc, x_n)\) est \(p_\theta(x):=p_\theta(x_1)\dotsb p_\theta(x_n)\), c’est-à-dire \[ \frac{e^{\langle \theta, \sum_{i=1}^n T(x_i)\rangle}}{Z(\theta)^n}. \tag{14.1}\] Cela reste un modèle exponentiel associé à la fonction de moment \((x_1, \dotsc, x_n)\to T(x_1) + \dotsc + T(x_n)\) et à la fonction de partition \(Z(\theta)^n\).
14.1 Définition
Définition 14.1 L’estimateur du maximum de vraisemblance (EMV) est le paramètre pour lequel la vraisemblance des observations est maximale : \[\emv = \arg \max_{\theta \in \Theta} p_\theta(x). \tag{14.2}\]
Il n’est pas évident que ce maximum existe, ni que le minimiseur est unique. Il existe un théorème général garantissant son existence et son unicité.
Proposition 14.1 Dans un modèle exponentiel identifiable dont l’espace des paramètres \(\Theta \subset \mathbb{R}^p\) est un ouvert convexe, sous certaines hypothèses, l’estimateur Équation 14.2 existe. Dans tous les cas, s’il existe, il est unique.
Trouver le maximum d’une fonction positive \(f(x)\) et trouver le maximum de son logarithme \(\ln f(x)\) reviennent au même : or, il est souvent plus facile dans les modèles exponentiels de maximiser le logarithme de la vraisemblance \(\ell(\theta)\), qui dans un modèle de la forme Équation 14.1 s’écrit \[\sum_{i=1}^n \langle \theta, T(x_i)\rangle - n\ln Z(\theta). \tag{14.3}\]
Preuve. La démonstration du théorème ci-dessus repose sur des outils analytiques simples. Dans Équation 14.3, le premier terme est une fonction linéaire. Quant au terme \(\ln Z(\theta)\), sa matrice Hessienne n’est autre (Équation 13.2) qu’une matrice de variance, donc positive : \(\ln Z(\theta)\) est donc convexe, et même strictement si le modèle est identifiable (Théorème 13.1). Ainsi, Équation 14.3 est presque sûrement strictement concave. Cela suffit à assurer que le maximum, s’il existe, est unique. Quant à son existence, elle nécessite des hypothèses sur \(\ell\) ou sur \(\Theta\) et je ne vois pas l’intérêt d’en énoncer de générales : ce sera au cas par cas. Mais typiquement, on peut demander à ce que \(\ell(\theta) \to -\infty\) lorsque \(\theta\) tend vers le bord de \(\Theta\), ce qui revient à demander que \(p_\theta(x)\to 0\).
On omettra presque systématiquement le fait que la log-vraisemblance dépend des observations \(x_i\), mais il faut garder en tête que la vraisemblance et la log-vraisemblance sont des variables aléatoires car elles dépendent de l’échantillon. Parfois, pour indiquer quand même que l’échantillon comporte \(n\) éléments, on notera \(\ell_n(\theta)\). En règle générale, Équation 14.2 est donc équivalent au problème du maximum de log-vraisemblance, \[ \emv = \arg \max \ell(\theta).\]
14.2 L’EMV et les moments
L’EMV maximise la log-vraisemblance. Lorsqu’il existe et qu’il est unique, il est donc l’unique solution de \(\nabla_\theta \ell(\theta) = 0\). En dérivant Équation 14.3, cette équation s’écrit encore \[\frac{1}{n}\sum_{i=1}^n T(x_i) = \nabla \ln Z(\theta).\] Or, nous avons vu (Théorème 13.1) que si le modèle est identifiable, le terme de droite, noté \(\varphi(\theta)\), est un difféormorphisme. Le maximum de vraisemblance vérifie donc l’équation des moments, \(\varphi(\emv) = \bar{T}_n\), où \(\bar{T}_n = (T(x_1) + \dotsc + T(x_n))/n\). On peut donc appliquer le théorème des moments Théorème 3.1. L’hypothèse selon laquelle \(T\) est de carré intégrable vient directement de Proposition 13.1.
Théorème 14.1 Dans un modèle iid, l’estimateur du maximum de vraisemblance vérifie \[\emv = \varphi^{-1}(\bar{T}_n)\] où \(\varphi(\theta) = \nabla \ln Z(\theta)= E_\theta[T(X)]\). Par ailleurs, cet estimateur est convergent et asymptotiquement normal : \(\sqrt{n}(\emv - \theta)\) converge en loi vers \(N(0,I(\theta)^{-1})\) où \[I(\theta) = \mathrm{Var}_\theta(T).\]
Preuve. L’application du théorème des moments ayant été justifiée plus haut, il suffit de vérifier que l’expression de la variance asymptotique coïncide avec \(I(\theta)^{-1}\). Le Théorème 3.1 dit que \(\sqrt{n}(\emv - \theta)\) converge vers une gaussienne centrée de variance \[D\varphi(\theta)^{-1}\mathrm{Var}_\theta(T)(D\varphi(\theta)^{-1})^\top. \] Or, Équation 13.2 montre que \(D\varphi(\theta) = \nabla^2 \ln Z(\theta)\) vaut également \(\mathrm{Var}_\theta(T)\), d’où la simplification.
Il se trouve que la matrice \(\mathrm{Var}_\theta(T)\) est centrale dans la théorie des statistiques : il s’agit de la matrice d’information de Fisher, que nous étudierons dans la prochaine section.
Le maximum de vraisemblance (“maximum likelihood”) est un bon prétendant au titre de concept le plus important des statistiques modernes. Son histoire est intéressante : voir cet article.
14.3 Problème d’optimisation
Dans les modèles exponentiels usuels où les paramètres ont peu de dimensions, il est aisé de maximiser la vraisemblance en résolvant l’équation \(\nabla \ell(\theta)=0\) par des méthodes analytiques simples. Mais hors du giron des modèles classiques, on n’utilise presque jamais la formulation abstraite de Théorème 14.1. La raison principale est que, même dans les modèles exponentiels, la fonction de partition \(Z(\theta)\) peut être très difficile à inverser – et parfois n’est même pas connue. Par exemple, un choix aussi simple que \[T(x) = -\begin{bmatrix}x^2 \\ x^4 \end{bmatrix}\] donne naissance à \(Z(\theta) = \int e^{-\theta_1 x^2 - \theta_2 x^4}dx\) dont la formule exacte qui s’exprime via des fonctions hypergéométriques. Même si l’on accède à \(\nabla \ln Z(\theta)\), il faut encore savoir en calculer l’inverse !
Dans ces cas, on maximise directement la vraisemblance en utilisant un algorithme d’optimisation, qui fournira donc une approximation de \(\emv\) : typiquement, une variante des algorithmes de montée de gradient2, dont la version la plus simple est \[ \theta_{t+1} - \theta_t = \eta \nabla \ell(\theta_t)\] où \(\eta\) est le pas de la montée de gradient.
14.4 Exemple
Pour illustrer le propos, regardons l’exemple classique de l’estimation de \(\mu\) dans un modèle \(N(\mu, 1)\), à partir de \(n\) observations indépendantes. La log-vraisemblance \(\ell(\mu)\) du modèle est \[\sum_{i=1}^n -\frac{(x_i - \mu)^2}{2} - \frac{n}{2}\ln(2\pi).\] Sa dérivée \(\ell'(\mu)\) est égale à \[ \sum_{i=1}^n (x_i - \mu).\] Le maximum de vraisemblance existe et il est unique, car le modèle est exponentiel et identifiable. Il n’y a donc qu’un seul point critique (qui vérifie \(\ell'(\mu)=0\)) et celui-ci est donné par \[ \hat{\mu}_{\mathrm{emv}} = \frac{\sum_{i=1}^n x_i}{n} = \bar{x}_n.\] Sans surprise, l’EMV est donc bien la moyenne empirique.
On se restreindra toujours aux modèles exponentiels qui satisfont les propriétés de la section précédente. ↩︎
Le monde de l’optimisation ayant été habitué à minimiser des fonctions, les statisticiens ont pris l’habitude d’utiliser des descentes de gradient pour minimiser l’opposé de la log-vraisemblance. ↩︎