$$ \newcommand{\bx}{\boldsymbol{x}} \newcommand{\bt}{\boldsymbol{\theta}} \newcommand{\bmu}{\boldsymbol{\mu}} \newcommand{\dkl}{\mathrm{d}_{\mathrm{KL}}} \newcommand{\dtv}{\mathrm{d}_{\mathrm{TV}}} \newcommand{\emv}{\hat{\theta}_{\mathrm{emv}}} \newcommand{\ent}{\mathrm{Ent}} $$

8  Tests du \(\chi_2\)

Les tests du \(\chi_2\) sont une famille de tests qui visent, pour la plupart, à tester si un échantillon discret a été généré par une loi précise ; on parle parfois de test d’ajustement.

8.1 Loi multinomiale

Soit \(\Omega\) un ensemble fini à \(k\) éléments, disons pour simplifier \(\{1, \dotsc, k\}\). On notera \(S_k\) l’ensemble des lois de probabilités sur cet ensemble, c’est-à-dire les \(\mathbf{p} = (p_1, \dotsc, p_k)\) tels que les \(p_i\) sont positifs et de somme 1. On observe \(n\) tirages iid selon une même loi sur \(\Omega\). Formellement, le modèle statistique est donné par \((\mathbf{p}^{\otimes n} : \mathbf{p} \in S_k)\).

On note \(N_j\) le nombre d’observations égales à \(j\). Le vecteur \(N=(N_1, \dotsc, N_k)\) suit une loi multinomiale de paramètres \(n\) et \(\mathbf{p}\), donnée par \[\begin{align*} \mathbb{P}(N = (n_1, \dotsc, n_k)) = \frac{n!}{n_1! \dotsc n_k!} \prod_{j=1}^k {p}_j^{n_j}, \end{align*}\]\(\sum_{j=1}^k n_j = n\). Cette loi sera notée \(\mathrm{Mult}(n, \mathbf{p})\).

Théorème 8.1 Soit \(N \sim \mathrm{Mult}(n,\mathbf{p})\). Le vecteur \(\sqrt{n}(\frac{N}{n}- \mathbf{p})\) converge en loi vers \(N(0, \Sigma)\), où \[ \Sigma = \mathrm{diag}(\mathbf{p}) - \mathbf{p}\mathbf{p}^\top. \tag{8.1}\]

Preuve. On commence par remarquer que \(N = \sum_{i=1}^n Z_i\), où \(Z_i=(\mathbf{1}_{X_i=1}, \dotsc, \mathbf{1}_{X_i=k})\). Les \(Z_i\) sont iid de moyenne \(\mathbf{p}\). Les covariances des entrées \(i\) et \(j\) de \(Z_k\) sont données par \[\mathbb{E}[\mathbf{1}_{X_k=i}\mathbf{1}_{X_k=j}] - p_i p_j = \delta_{i,j}p_i - p_i p_j,\] ce qui montre que la matrice de covariance des \(Z_k\) est Équation 8.1. Il suffit alors d’appliquer le TCL.

Remarque. On considère que cette approximation normale est correcte dès que \(\mathbb{E}[N_j]\) est plus grand que \(5\) pour tout \(j\).

8.2 Test d’adéquation

Le test du \(\chi^2\) d’adéquation consiste à tester l’hypothèse nulle \[H_0: \mathbf{p}= \mathbf{p}_0 \tag{8.2}\] contre l’hypothèse alternative \[H_1:\mathbf{p} \neq \mathbf{p}_0, \tag{8.3}\] pour une valeur de \(\mathbf{p}_0\) fixée au préalable. À partir de maintenant, on supposera implicitement que toutes les entrées de \(\mathbf{p}_0\) sont non nulles — cela garantira que les limites en loi trouvées ci-dessous ne sont pas dégénérées.

Exemple 8.1 On peut se demander si, dans la langue courante, les 21 lettres de l’alphabet ont à peu près la même probabilité d’apparaître comme première lettre d’un mot. Cela revient à tester si \(\mathbf{p}_0=(1/26, \dotsc, 1/26)\), hypothèse qui est évidemment fausse, il suffit de regarder l’épaisseur des 26 sections du dictionnaire pour s’en rendre compte.

Qu’en est-il des 9 chiffres ? On peut vouloir tester si, dans n’importe quel document (journal, site internet, article scientifique), ces 9 chiffres apparaissent à peu près uniformément en tant que premier chiffre d’un nombre. Cela reviendrait à tester \(\mathbf{p}_0 = (1/9, \dotsc, 1/9)\).

Ce n’est pas le cas et cette hypothèse est très fréquemment réfutée : le premier chiffre significatif d’un nombre est bien plus souvent 1 (\(\approx 30\%\) des cas) que \(9\) (\(\approx 5\%\) cas). Ce phénomène s’appelle loi de Benford.

Le théorème Théorème 8.1 dit que \(\sqrt{n}(\frac{N}{n}- \mathbf{p}) \approx N(0, \Sigma)\). Notons \(\sqrt{\mathbf{p}_0} = (\sqrt{p_1}, \dotsc, \sqrt{p_k})\) et \(D = \mathrm{diag}(\sqrt{\mathbf{p}}_0)\). Sous \(H_0\), \(D^{-1} \sqrt{n}(\frac{N}{n}- \mathbf{p}_0)\) converge en loi vers \(D^{-1}N(0,\Sigma) = N(0,D^{-1}\Sigma (D^{-1})^\top)\). Que vaut cette matrice de covariance ? 

D’abord, comme \(D\) est diagonale, \(D^{-1}\) l’est aussi et \((D^{-1})^\top\) vaut \(D^{-1}\). De plus, \(D^2\) est égal à \(\mathrm{diag}(\mathbf{p}_0)\). Enfin, en faisant la multiplication on voit vite que \(D^{-1}\mathbf{p}_0 = \sqrt{\mathbf{p}}_0\). Ainsi, on voit que \(D^{-1}\Sigma D^{-1}\) vaut également \(D^{-1}D^2 D^{-1} - D^{-1}\mathbf{p}_0 \mathbf{p}_0 D^{-1}\) c’est-à-dire \[I_k - \sqrt{\mathbf{p}_0} \sqrt{\mathbf{p}_0}^{\top}.\] L’appendice Chapitre 21 rappelle pourquoi cette matrice est une matrice de projection orthogonale.

On a montré que \(D^{-1}\sqrt{n}(N/n - \mathbf{p}_0)\) converge en loi vers \[N(0, I_k - \sqrt{\mathbf{p}_0} \sqrt{\mathbf{p}_0}^\top).\] La statistique qui va nous servir à faire des tests est la norme au carré de \(D^{-1}\sqrt{n}(N/n - \mathbf{p}_0)\). En manipulant cette expression, on obtient sa forme usuelle, le contraste du \(\chi_2\).

Définition 8.1 (Contraste du \(\chi_2\)) Dans le contexte ci-dessus, le contraste du \(\chi_2\) associé à la loi \(\mathbf{p}\) est la statistique

\[ D_n(\mathbf{p}) = \sum_{j=1}^k \frac{(N_j - n{p}_j)^2}{n{p}_j}.\]

Pour faire des tests, il suffit donc de trouver la loi asymptotique de cette statistique.

Théorème 8.2 Sous l’hypothèse nulle Équation 8.2, la statistique \(D_n\) converge en loi vers \(\chi_2(k-1)\). De plus, sous l’hypothèse alternative Équation 8.3, \(D_n\) tend vers \(+\infty\) presque sûrement.

Preuve. Comme \(|\sqrt{\mathbf{p}_0}|\) vaut 1, la matrice \(\pi_0=I_k -\sqrt{\mathbf{p}_0} \sqrt{\mathbf{p}_0}^T\) est la matrice de projection sur l’orthogonal du vecteur \(\sqrt{\mathbf{p}_0}\) (je vous renvoie à l’appendice Chapitre 21). Le théorème de Cochran (Théorème 11.3) implique alors que la statistique \(D_n\), qui est égale à \[ \left| \mathrm{diag}(1/\sqrt{\mathbf{p}_0}) \sqrt{n}\left(\frac{N}{n}- \mathbf{p}_0\right) \right |^2, \tag{8.4}\] converge en loi vers la norme de la projection d’une gaussienne \(N(0,I_k)\) sur un sous-espace de dimension \(k-1\), c’est-à-dire une loi \(\chi_2(k-1)\). Sous l’hypothèse alternative, il y a au moins un \(p_i\) non nul tel que \(p_i \neq (p_0)_i\). Ainsi, Équation 8.4 est plus grand que \(n(N_i/n - (p_0)_i)^2 / p_i\), mais \(N_i\) suit une loi \(\mathrm{Bin}(n,p_i)\) et donc \(N_i / n\) converge en probabilité vers \(p_i\). Il est alors clair que \(n(N_i/n - (p_0)_i)\) converge vers \(+\infty\).

Un test de niveau \(1-\alpha\) pour l’hypothèse Équation 8.2 est alors donné par la région de rejet \[ \{ D_n(\mathbf{p}_0) > \kappa_{k-1, 1-\alpha} \}\]

\(\kappa_{k-1, 1-\alpha}\) est le quantile d’ordre \(1-\alpha\) d’une \(\chi^2(k-1)\). Si \(\mathbf{p}\) n’est pas égal à \(\mathbf{p}_0\), le contraste \(D_n\) tend vers l’infini, donc le test sera forcément dans la zone de rejet : si l’hypothèse alternative est simple, la puissance du test tend donc vers 1.

8.3 Test d’indépendance

Les tests du \(\chi_2\) d’indépendance sont omniprésents en sciences humaines. Dans ces tests, on observe des variables aléatoires qui sont des couples à valeur dans deux espaces discrets ; disons, pour simplifier, que cet espace est \(\Omega = \{1, \dotsc, k\}\times \{1, \dotsc, h\}\). Les observations \((x_i, y_i)\) sont des réalisations d’une variable aléatoire \((X,Y)\).

Exemple 8.2 On récolte des données sur le groupe socio-professionnel (GSP) et le genre. Chaque observation correspond à une personne, possédant deux attributs : \(\mathtt{genre}\), valant 0 ou 1, et \(\mathtt{GSP}\), valant l’une des 6 groupes définis par l’INSEE (Agriculteur, artisan, cadre, etc.). On cherche à déterminer si les deux modalités sont indépendantes, c’est-à-dire si la proportion d’hommes et de femmes dans chaque groupe ne diffère pas significativement en fonction du groupe.

Ici, le modèle statistique sera donc \((\mathbf{p}^{\otimes n} : \mathbf{p} \in S_{k,h})\), où \(S_{k,h}\) est l’ensemble des \(\mathbf{p} = (p_{i,j})\) qui sont des lois de probabilité.

Si \(\mathbf{p}\) est la loi de \((X,Y)\), alors \(X\) et \(Y\) sont indépendantes si et seulement si \(\mathbf{p}\) peut s’écrire sous la forme \(p_{i,j} = p^x_i p^y_j\), où \(\mathbf{p}^x \in S_k\) et \(\mathbf{p}^y \in S_h\). L’ensemble de ces lois sera noté \(I_{k,h}\) (« I » pour « Indépendant » ). Les tests d’indépendance visent à tester l’hypothèse nulle \[ H_0 : \mathbf{p}\in I_{k,h} \tag{8.5}\] contre l’hypothèse alternative \[ H_1 : \mathbf{p} \notin I_{k,h}.\]

La procédure pour effectuer un tel test nécessite plusieurs étapes.

Si \(\mathbf{p}\) était effectivement la loi de deux variables indépendantes \(\mathbf{p}^x\) et \(\mathbf{p}^y\), alors ses marginales seraient précisément \(\mathbf{p}^x\) et \(\mathbf{p}^y\), que l’on pourrait facilement estimer. Pour chaque \(i\) et chaque \(j\), les estimateurs \(\hat{\mathbf{p}}^x\) et \(\hat{\mathbf{p}}^y\) définis par \[\hat{p}^x_i = \frac{\sum_{j=1}^h N_{i,j}}{n}\] et \[\hat{p}^y_j = \frac{\sum_{i=1}^k N_{i,j}}{n}\] sont effectivement des estimateurs sans biais et convergents des quantités \(p^x_i, p^y_j\). De plus, sous l’hypothèse nulle, \(\hat{p}^x_i \hat{p}^y_i\) serait effectivement un estimateur convergent de \(p_{i,j}\).

De plus, si \(\mathbf{p}\) était effectivement de la forme \(\hat{\mathbf{p}}^x\hat{\mathbf{p}}^y\), alors la moyenne théorique des éléments de classe \((i,j)\) serait \(n\hat{p}^x_i \hat{p}^y_j\). Cette quantité, notée \(\check{N}_{i,j}\), s’appelle effectif théorique. Nous pouvons maintenant construire la statistique qui nous servira à tester tout cela.

Définition 8.2 (Statistique de Pearson) La statistique de Pearson est définie par

\[C_n = \sum_{i=1}^k \sum_{j=1}^h \frac{(N_{i,j} - \check{N}_{i,j})^2}{\check{N}_{i,j}}. \]

Cette statistique possède une loi limite connue, encore en vertu du théorème de Cochran. Noter que la statistique de Pearson possède une expression alternative, \[C_n = \sum\sum \frac{n(\hat{p}_{i,j} - \hat{p}^x_i \hat{p}^y_j)^2}{\hat{p}^x_i \hat{p}^y_j}. \]

Théorème 8.3 (Loi de la statistique de Pearson) Sous l’hypothèse nulle Équation 8.5, \(C_n\) converge en loi vers \[ \chi_2((k-1)(h-1)).\] De plus, pour n’importe quelle loi \(\mathbf{p}_1\) qui n’est pas dans \(I_{k,h}\), \(C_n \to +\infty\) presque sûrement.

Preuve. C’est une conséquence un peu plus technique du théorème de Cochran.

Tout cela permet encore une fois d’obtenir des tests : en abrégeant \(\kappa_{1 - \alpha} = \kappa_{(k-1)(h-1), 1-\alpha}\), on obtient que \(\mathbb{P}(C_n > \kappa_{1-\alpha}) \to \alpha\). Ainsi, la région de rejet \[\{C_n > \kappa_{1-\alpha}\} \] fournit un test de niveau asymptotique \(1-\alpha\). La seconde partie du théorème dit que si la véritable loi sous-jacente n’est effectivement pas la loi de deux variables indépendantes, alors ce test sera systématiquement rejeté — autrement dit, si l’hypothèse alternative est simple, la puissance de ce test tend vers 1.