2 Estimation de paramètre
On fixe un modèle statistique \((\mathcal{X}, \mathscr{F}, (P_\theta))\), et l’on cherche à estimer le paramètre \(\theta\) ou un autre paramètre qui dépend de \(\theta\). Dans ce chapitre, on explique comment juger la qualité d’un estimateur, et l’on donne une technique générale pour construire de bons estimateurs dans des situations assez naturelles.
2.1 Précision d’un estimateur
Définition 2.1 (Biais , risque quadratique)
- Le biais de \(\hat{\theta}\) est la quantité \(\mathbb{E}_\theta[\hat\theta - \theta]\). L’estimateur est dit sans biais s’il est de biais nul.
- Le risque quadratique de \(\hat\theta\) est la quantité \(\mathbb{E}_{\theta}[ |\hat{\theta}- \theta|^2]\).
En pratique, on peut vouloir estimer non pas \(\theta\) lui-même, mais un paramètre \(\psi = \psi_\theta\) qui dépend de \(\theta\), comme \(\cos(\theta)\) ou \(|\theta|\) par exemple. Dans ce cas, si \(\hat{\psi}\) est un estimateur de \(\psi\) alors le biais est défini par \(\mathbb{E}_\theta[\hat{\psi} - \psi_\theta]\) et le risque quadratique par \(\mathbb{E}_\theta [ |\hat\psi - \psi_\theta|^2]\).
La dépendance du risque quadratique vis à vis de la taille de l’échantillon est une question importante : pour une suite d’expériences donnée, quelles sont les meilleures vitesses envisageables, et comment les obtenir ?
Théorème 2.1 (Décomposition biais-variance) \[ \mathbb{E}_{\theta} [|\hat{\theta}-\theta|^2] = \underbrace{\operatorname{Var}_{\theta} (\hat{\theta})}_{\text{variance}} + \underbrace{\mathbb{E}_{\theta}[\hat{\theta}-\theta]^2}_{\text{carré du biais}} \, . \]
2.2 Convergence
Rappelons brièvement deux notions de convergence des variables aléatoires. Une suite de variables aléatoires \(X_n\) à valeurs dans \(\mathbb{R}^d\) converge en probabilité vers une variable aléatoire \(X\) à valeurs dans \(\mathbb{R}^d\) si pour tout \(\varepsilon >0\), \[ \lim_{n\to\infty} \mathbb{P} (| X_n -X|> \varepsilon ) = 0 \, . \]
Définition 2.2 (consistance d’un estimateur) Une suite d’estimateurs \((\widehat{\theta}_n)\) est convergente pour l’estimation de \(\theta\) lorsque, pour tout \(\theta \in \Theta\), sous \(P_\theta\), la suite \((\hat{\theta}_n)\) converge en probabilité vers \(\theta\) ; autrement dit, lorsque \[ \forall \varepsilon>0, \qquad \lim_n P_\theta ( | \widehat{\theta}_n-\theta| > \varepsilon ) =0. \] La suite est fortement convergente si, pour tout \(\theta\), la convergence a lieu \(P_\theta\)-presque sûrement. $$
On voit parfois le mot consistant utilisé au lieu de convergent. Je pense que c’est un anglicisme.
2.3 Normalité asymptotique
Lorsqu’un estimateur est convergent, on peut se demander à quoi ressemblent ses fluctuations autour de sa valeur limite. Le théorème central limite indique que le comportement asymptotique gaussiens est relativement fréquent, et beaucoup d’estimateurs sont des sommes de réalisations de variables indépendantes.
Définition 2.3 (normalité asymptotique) Soit \(\theta\) un paramètre à estimer, et \(\hat{\theta}_n\) une suite d’estimateurs de \(\theta\). On dit que ces estimateurs sont asymptotiquement gaussiens (ou normaux) si, après les avoir renormalisés convenablement, ils convergent en loi vers une loi gaussienne. Autrement dit, s’il existe une suite \(a_n\) de nombres réels tels que \[ a_n(\hat{\theta}_n - \theta) \xrightarrow[n\to \infty]{\text{loi}} N(0,\Sigma)\] où \(\Sigma\) est une matrice de covariance qui dépend peut-être de \(\theta\) — pour éviter les cas dégénérés, on demande à ce que \(\Sigma\) soit non-nulle.
2.4 Trois outils sur la normalité asymptotique
La normalité asymptotique n’est pas intéressante en elle-même ; l’idée est plutôt de chercher le comportement asymptotique de la statistique recentrée pour pouvoir en déduire des garanties en terme de risque asymptotique ou d’intervalle de confiance. Nous utiliserons cela de nombreuses fois dans la suite ; la normalité asymptotique sera par exemple utilisée dans la construction des intervalles de confiance. Aussi, prouver que des estimateurs sont asymptotiquement normaux est une tache importante, qui est grandement simplifiée par les deux outils suivants. On commence par rappeler le théorème centra-limite.
Théorème 2.2 (Théorème Central-Limite) Soit \((X_i)\) une suite de variables aléatoires réelles, indépendantes et identiquement distribuées. On suppose que ces variables ont une variance \(\sigma^2\) finie. Alors, la variable aléatoire \[ \sqrt{n}\left(\frac{1}{n}\sum_{i=1}^n X_i - \mathbb{E}[X]\right)\] converge en loi vers une loi \(N(0,\sigma^2)\).
Le Lemme de Slutsky sera fréquemment utilisé pour combiner convergence en loi et convergence en probabilité.
Théorème 2.3 (Lemme de Slutsky) Soit \((X_n)\) une suite de variables aléatoire qui converge en loi vers \(X\) et \((Y_n)\) une suite de variables aléatoires qui converge en probabilité (ou en loi) vers une constante \(c\). Alors, le couple \((X_n, Y_n)\) converge en loi vers \((X,c)\) ; autrement dit, pour toute fonction continue bornée \(\varphi\), \[\mathbb{E}[\varphi(X_n, Y_n)] \to \mathbb{E}[\varphi(X,c)].\]
Preuve. Fixons une fonction test \(\varphi\) continue à support compact, donc bornée par un certain \(M\). Il faut montrer que \(\mathbb{E}[\varphi(X_n, Y_n) - \varphi(X,c)]\) tend vers zéro. L’intégrande est égal à la somme de \(A = \varphi(X_n, Y_n) - \varphi(X_n, c)\) et de \(B=\varphi(X_n, c) - \varphi(X, c)\).
Comme \(X_n\) tend en loi vers \(X\) et que \(t\to \varphi(t,c)\) est continue bornée, l’espérance de \(B\) tend vers zéro. Il faut donc montrer que l’espérance de \(A\) tend vers zéro. On fixe un \(\varepsilon>0\).
- Par le théorème de Heine, \(\varphi\) est uniformément continue : il existe \(\delta>0\) tel que \(|(x,y) - (x', y')|<\delta\) entraîne que \(|\varphi(x,y) - \varphi(x', y')|< \varepsilon/2\).
- On introduit l’événement \(\{|Y_n - c|\leqslant \delta\}\). Par le point précédent, sur cet événement on a \(|A| < \varepsilon/2\). Hors de cet événement, on peut toujours borner \(|A|\) par \(2M\). On a donc \[|\mathbb{E}A| \leqslant \mathbb{P}(|Y_n - c|\leqslant \delta)\varepsilon/2 + \mathbb{P}(|Y_n - c| > \delta)2M.\]
- Comme \(Y_n\) converge en probabilité vers \(c\), lorsque \(n\) est assez grand on a \(\mathbb{P}(|Y_n - c| > \delta) < \varepsilon/4M\).
- En regroupant tout ce qui a été dit, on obtient bien \(|\mathbb{E}A| \leqslant \varepsilon\) dès que \(n\) est assez grand, ce qui montre bien que \(\mathbb{E}A \to 0\).
Théorème 2.4 (Delta-méthode) Soit \((X_n)\) une suite de variables aléatoires réelles telle que \(\sqrt{n}(X_n - \alpha)\) converge en loi vers \(N(0,\sigma^2)\). Pour toute fonction \(g : \mathbb{R} \to \mathbb{R}\) dérivable en \(\alpha\) (de dérivée non nulle en \(\alpha\)), on a \[ \sqrt{n}(g(X_n) - g(\alpha)) \xrightarrow[n \to \infty]{\text{loi}} N(0, g'(\alpha)^2 \sigma^2).\]
Plus généralement, si les \(X_n\) sont à valeurs dans \(\mathbb{R}^d\) et que \(\sqrt{n}(X_n - \alpha) \to N(0,\Sigma)\), alors pour toute application \(g:\mathbb{R}^d \to \mathbb{R}^k\), la suite \(\sqrt{n}(g(X_n) - g(\alpha))\) converge en loi vers \[N(0, Dg(\alpha)\Sigma Dg(\alpha)^\top)\] où \(Dg(x)\) est la matrice jacobienne de \(g\) en \(x\).
Preuve. À écrire.
2.5 Deux estimateurs importants
Deux estimateurs sont omniprésents en statistique : la moyenne empirique et la variance empirique. Ils sont pertinents dans n’importe quel modèle où les observations sont des réalisations de variables iid possédant une moyenne \(\mu\) et une variance \(\sigma^2\).
La moyenne empirique est définie par \[ \bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i.\] Il est évident que \(\mathbb{E}[\bar{X}_n] = \mathbb{E}[X] = \mu\). Cet estimateur est donc toujours sans biais, et son risque quadratique est égal à sa variance, c’est-à-dire \(\frac{\sigma^2}{n}\).
L’estimateur de la variance empirique est défini comme \[\hat{\sigma}_n^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i - \bar{X}_n)^2.\]
Théorème 2.5 L’estimateur \(\hat{\sigma}_n^2\) est sans biais.
Preuve. À écrire.