8 Intervalles de confiance
8.1 Principe
Dans un modèle statistique, l’estimation du paramètre \(\theta\) par intervalle de confiance consiste à spécifier une région calculable à partir des données, et qui contient \(\theta\) avec grande probabilité : en d’autres termes, une région de confiance pour \(\theta\).
Pour simplifier, on supposera d’abord que \(\theta\) est un paramètre réel.
Définition 8.1 (intervalle de confiance) Un intervalle de confiance de niveau \(1-\alpha\) est un intervalle \(I = [A,B]\) dont les bornes \(A,B\) sont des statistiques, et tel que pour tout \(\theta\), \[P_\theta(\theta \in I) \geqslant 1 - \alpha.\] Un intervalle de confiance de niveau asymptotique \(1-\alpha\) est une suite d’intervalles \(I_n = [A_n,B_n]\) dont les bornes \(A_n,B_n\) sont des statistiques, et tels que pour tout \(n\), \[ P_\theta(\theta \in I_n) \geqslant 1 - \alpha.\]
Le terme « niveau » désigne \(1-\alpha\) ; la vocation de ce nombre est d’être proche de 1, typiquement 99%. Le nombre \(\alpha\) est parfois appelé « erreur », « marge d’erreur » ou encore « niveau de risque » ; la vocation de ce nombre est d’être proche de zéro, typiquement 1%.
Il n’y a rien d’autre à savoir sur les intervalles de confiance ; tout l’art de la chose consiste à savoir les construire. Commençons par des exemples essentiels à plusieurs titres : le cas d’un échantillon gaussien, et le cas de lois de Bernoulli.
8.2 Exemples gaussiens
On dispose de variables aléatoires \(X_1, \dotsc, X_n\) de loi \(N(\mu, \sigma^2)\). On va donner des intervalles de confiance pour l’estimation des paramètres \(\mu\) et \(\sigma\) dans plusieurs cas de figure.
8.2.1 Estimation de \(\mu\)
Lorsque \(\sigma\) est connue.
La moyenne empirique \(\bar{X}_n\) est un estimateur sans biais de \(\mu\). Nous savons aussi la loi exacte de \(\bar{X}_n\), qui est \(N(\mu, \sigma^2/n)\). Autrement dit, \[\frac{\sqrt{n}}{\sigma}(\bar{X}_n - \mu) \sim N(0,1). \tag{8.1}\]
Dans cette équation, on a trouvé une variable aléatoire dont la loi ne dépend plus de \(\mu\). Il est donc possible de déterminer un intervalle dans lequel elle fluctue à l’aide des quantiles de la loi normale, qui sont étudiés dans Section 4.1. Si l’on se donne une marge d’erreur \(\alpha = 1\%\), alors \[ \mathbb{P}( (\sqrt{n}/\sigma)|\bar{X}_n - \mu| > z_{0.99}) = 1\%\] où \(z_{0.99} \approx 2.57\). Or, l’inégalité \[ \frac{\sqrt{n}}{\sigma}|\bar{X}_n - \mu| > z_{0.99} \tag{8.2}\] équivaut à1 \[ \mu \in \left[ \bar{X}_n \pm \frac{z_{0.99}\sigma}{\sqrt{n}} \right]. \tag{8.3}\] Le passage de Équation 8.2 à Équation 8.3 est souvent appelé pivot et sert à passer d’un intervalle de fluctuation à un intervalle de confiance.
Nous avons donc les deux bornes de notre intervalle de confiance : \[ A = \bar{X}_n - \frac{z_{0.99}\sigma}{\sqrt{n}}\] \[ B = \bar{X}_n + \frac{z_{0.99}\sigma}{\sqrt{n}} .\] Ces deux quantités sont bien des statistiques, car \(\sigma\) est connu. De plus, nous venons de montrer que \(P_\mu(\mu \in [A,B]) = 99\%\). Ici, le choix de la marge d’erreur \(\alpha = 1\%\) ne jouait aucun rôle particulier ; ainsi, un intervalle de confiance de niveau \(1-\alpha\) pour l’estimation de \(\mu\) est donné par \[\left[\bar{X}_n - \frac{z_{1-\alpha}\sigma}{\sqrt{n}}~~;~~\bar{X}_n + \frac{z_{1-\alpha}\sigma}{\sqrt{n}} \right]. \tag{8.4}\]
Lorsque \(\sigma\) est inconnue.
Lorsque \(\sigma\) n’est pas connue, les bornes \(A,B\) ci-dessus ne sont pas des statistiques, car elles dépendent de \(\sigma\). On peut estimer \(\sigma\) sans biais (cf Théorème 6.5) via l’estimateur \[ \hat{\sigma}_n^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X}_n)^2.\] Que se passe-t-il si, dans Équation 8.1, on remplace \(\sigma\) par son estimation \(\hat{\sigma}_n^2\) ? On obtient la statistique dite de Student, \[T_n = \frac{\sqrt{n}}{\sqrt{\hat{\sigma}_n^2}}(\bar{X}_n - \mu). \tag{8.5}\] Sa loi n’est plus gaussienne : c’est une loi de Student à \(n-1\) paramètres de liberté \(\mathscr{T}(n-1)\): le calcul de la densité est fait en détails dans Section 25.3 - Section 8.3.2. Les quantiles des lois de Student ont été calculés avec précision. On notera \(t_{k,\alpha}\) le quantile symétrique de niveau \(\alpha\) de \(\mathscr{T}(k)\). Alors, \[ P_{\mu, \sigma^2}(|T_n|> t_{n-1,1-\alpha}) = \alpha .\] Par le même raisonnement que tout à l’heure, l’inégalité \[ \left|\frac{\sqrt{n}}{\hat{\sigma}_n}(\bar{X}_n - \mu)\right| > t_{n-1,1-\alpha}\] est équivalente à \[ \mu \in \left[\bar{X}_n \pm \frac{t_{n-1,1-\alpha}\hat{\sigma}_n}{\sqrt{n}} \right]\] et les deux côtés de cet intervalle sont des statistiques; en les notant \(A,B\), on a bien trouvé un intervalle de confiance de niveau \(\alpha\), c’est-à-dire tel que \(P_{\mu,\sigma^2}(\mu \in [A,B]) = \alpha\). Cet intervalle de confiance est d’une grande importance en pratique et mérite son propre théorème. Il est dû à William Gosset.
Théorème 8.1 (Intervalle de Student) Un intervalle de confiance de niveau \(1-\alpha\) pour l’estimation de \(\mu\) lorsque \(\sigma\) n’est pas connue est donné par
\[\left[\bar{X}_n \pm \frac{t_{n-1, 1-\alpha}\hat{\sigma}_n}{\sqrt{n}}\right].\]
8.2.2 Estimation de \(\sigma\)
Supposons maintenant qu’on désire estimer la variance \(\sigma^2\).
Lorsque \(\mu\) est connue.
En supposant que \(\mu\) est connue, l’estimateur des moments le plus naturel pour estimer \(\sigma^2\) est évidemment \[ \tilde{\sigma}^2_n = \frac{1}{n}\sum_{i=1}^n (X_i - \mu)^2.\] Comme les \((X_i - \mu)/\sigma\) sont des variables aléatoires gaussiennes centrées réduites, l’estimateur \(\tilde{\sigma}^2_n \times (n/ \sigma^2)\) est une somme de \(n\) gaussiennes standard indépendantes. La loi de cette statistique est connue : c’est une loi du chi-deux à \(n\) paramètres de liberté comme démontré dans Section 25.2. Cette loi n’est pas symétrique, puisqu’elle est supportée sur \([0,\infty[\). On note souvent \(k^-_{n,\alpha}\) et \(k^+_{n,\alpha}\) les nombres les plus éloignés possibles2 tels que \(\mathbb{P}(k^-_{n,\alpha}< \chi^2(n)<k^+_{n,\alpha}) = 1-\alpha\). Ainsi, \[P_{\sigma^2}(k^-_{n,\alpha}< \frac{n \tilde{\sigma}^2_n}{\sigma^2} < k^+_{n,\alpha}) = 1-\alpha.\] En pivotant comme dans les exemples précédents, on obtient que l’intervalle \[\left[\frac{n\tilde{\sigma}_n^2}{k^{+}_{n,\alpha}} ~~;~~ \frac{n\tilde{\sigma}_n^2}{k^-_{n,\alpha}} \right] \] est un intervalle de confiance de niveau \(\alpha\) pour \(\sigma^2\).
Lorsque \(\mu\) est inconnue.
Cette fois, on utilise l’estimateur de Théorème 6.5, à savoir \[ \hat{\sigma}_n^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X}_n)^2.\] La loi de \((n-1)\hat{\sigma}^2_n / \sigma^2\) est encore une loi du chi-deux, mais à \(n-1\) paramètres de liberté (cela sera montré dans Section 25.2). Le même raisonnement que ci-dessus donne l’intervalle de confiance de niveau \(1-\alpha\) suivant : \[\left[\frac{(n-1)\hat{\sigma}_n^2}{k^+_{n-1,\alpha}} ~~;~~ \frac{(n-1)\hat{\sigma}_n^2}{k^-_{n-1,\alpha}} \right]. \]
8.3 Loi de la statistique de Student
8.3.1 Expression
Les lois de Student sont décrites dans la section Chapitre 25 de l’appendice. En résumé, la loi de Student d’indice \(n\), notée \(\mathscr{T}(n)\), est la loi de \(N(0,1) / \sqrt{\chi_2(n)/n}\) où le numérateur et le dénominateur sont indépendants, et sa densité est donnée par
\[t_n(x) = \frac{1}{Z_n}\left(\frac{1}{1 + \frac{x^2}{n}}\right)^{\frac{n+1}{2}}.\] où la constante de normalisation est \[Z_n = \frac{1}{\sqrt{n\pi}}\frac{\Gamma\left(\frac{n+1}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}.\]
8.3.2 Loi de la statistique de Student
Soient \(X_1, \dotsc, X_n\) des variables gaussiennes \(N(\mu, \sigma^2)\) indépendantes, et soit \(T_n = \sqrt{n}(\bar{X}_n-\mu)/\sqrt{\hat{\sigma}^2_n}\), où \[\hat{\sigma}^2_n = \frac{\sum_{i=1}^n (X_i - \bar{X}_n)^2}{n-1}. \]
Théorème 8.2 \[T_n \sim \mathscr{T}(n-1).\]
\(~~\)
Preuve. On va montrer 1° que \(\bar{X}_n\) et \(\sqrt{\hat{\sigma}^2_n / \sigma^2}\) sont indépendantes, et 2° que \(\sqrt{\hat{\sigma}^2_n / \sigma^2}\) a bien la même loi que \(\sqrt{Y_{n-1}/(n-1)}\) où \(Y_{n-1}\) est une \(\chi_2(n-1)\). Dans la suite, on supposera que \(\mu=0\) et \(\sigma=1\), ce qui n’enlève rien en généralité.
Premier point. Le vecteur \(X=(X_1, \dotsc, X_n)\) est gaussien. Posons \(Z = (X_1 - \bar{X}_n, \dotsc, X_n - \bar{X}_n)\). Le couple \((\bar{X}_n, Z_n)\) est linéaire en \(X\), donc ce couple est aussi un vecteur gaussien. Or, la covariance de ses deux éléments est nulle. Par exemple, \(\mathrm{Cov}(\bar{X}_n, Z_1)\) est égale à \(\mathrm{Cov}(\bar{X}_n, X_1) - \mathrm{Var}(\bar{X}_n)\), ce qui par linéarité donne \(1/n - 1/n = 0\). Ainsi, \(\bar{X}_n\) et \(Z\) sont deux variables conjointement gaussiennes et décorrélées : elles sont donc indépendantes. Comme \(\hat{\sigma}_n\) est une fonction de \(Z\), elle est aussi indépendante de \(\bar{X}_n\).
Second point. \(Z\) est la projection orthogonale de \(X\) sur le sous-espace vectoriel \(\mathscr{V}=\{x \in \mathbb{R}^n : x_1 + \dotsc + x_n = 0\}\). Soit \((f_i)_{i=2, \dotsc, n}\) une base orthonormale de \(\mathscr{V}\), de sorte que \(Z = \sum_{i=2}^n \langle f_i, X\rangle f_i\). Par l’identité de Parseval, \[|Z|^2 = \sum_{i=2}^n |\langle f_i, X \rangle|^2.\] Or, les \(n-1\) variables aléatoires \(G_i = \langle f_i, X\rangle\) sont des gaussiennes standard iid. En effet, on vérifie facilement que \(\mathrm{Cov}(G_i, G_j) = \langle f_i, f_j\rangle = \delta_{i,j}\). On en déduit donc que \(|Z|^2\) suit une loi \(\chi_2(n-1)\).
La seconde partie de la démonstration est un cas particulier du théorème de Cochran, que nous verrons dans le chapitre sur la régression linéaire.