$$ \newcommand{\bx}{\boldsymbol{x}} \newcommand{\bt}{\boldsymbol{\theta}} \newcommand{\dkl}{\mathrm{d}_{\mathrm{KL}}} \newcommand{\dtv}{\mathrm{d}_{\mathrm{TV}}} \newcommand{\emv}{\hat{\theta}_{\mathrm{emv}}} \newcommand{\ent}{\mathrm{Ent}} $$

8  Tests du \(\chi_2\)

Les tests du \(\chi_2\) sont une vaste famille de tests qui visent, pour la plupart, à tester si un échantillon (souvent discret) a été généré par une loi précise ; on parle parfois de test d’ajustement.

8.1 Loi multinomiale

Soit \(\Omega\) un ensemble fini à \(k\) éléments, disons pour simplifier \(\{1, \dotsc, k\}\). On notera \(S_k\) l’ensemble des lois de probabilités sur cet ensemble, c’est-à-dire les \(k\)-uplets \(\mathbf{p} = (p_1, \dotsc, p_k)\) de nombres positifs dont la somme vaut 1. On observe \(n\) tirages indépendants et identiquement distribués selon une même loi sur \(\Omega\). Formellement, le modèle statistique est donné par \((\mathbf{p}^{\otimes n} : \mathbf{p} \in S_k)\).

On note \(N_j\) le nombre d’observations égales à \(j\). Le vecteur \(N=(N_1, \dotsc, N_k)\) suit alors une loi multinomiale de paramètres \(n\) et \(\mathbf{p}\), donnée par \[\begin{align*} \mathbb{P}(N = (n_1, \dotsc, n_k)) = \frac{n!}{n_1! \dotsc n_k!} \prod_{j=1}^k {p}_j^{n_j}, \end{align*}\]\(\sum_{j=1}^k n_j = n\). Cette loi sera notée \(\mathrm{Mult}(n, \mathbf{p})\).

Théorème 8.1 Soit \(N \sim \mathrm{Mult}(n,\mathbf{p})\). Alors, \(\sqrt{n}(\frac{N}{n}- \mathbf{p})\) converge en loi lorsque \(n\to\infty\) vers \(\mathcal{N}(0, \Sigma)\), où \[ \Sigma = \mathrm{diag}(\mathbf{p}) - \mathbf{p}\mathbf{p}^\top. \tag{8.1}\]

Preuve. On commence par remarquer que \(N = \sum_{i=1}^n Z_i\), où \(Z_i=(\mathbf{1}_{X_i=1}, \dotsc, \mathbf{1}_{X_i=k})\). Les \(Z_i\) sont iid de moyenne \(\mathbf{p}\). Les covariances des entrées \(i\) et \(j\) de \(Z_k\) sont données par \[\mathbb{E}[\mathbf{1}_{X_k=i}\mathbf{1}_{X_k=j}] - p_i p_j = \delta_{i,j}p_i - p_i p_j,\] ce qui montre que la matrice de covariance des \(Z_k\) est Équation 8.1. Il suffit alors d’appliquer le TCL.

Remarque. On considère que cette approximation normale est correcte dès que \(\mathbb{E}[N_j]\) est plus grand que \(5\) pour tout \(j\).

8.2 Test d’adéquation

Le test du \(\chi^2\) d’adéquation consiste à tester l’hypothèse nulle \[H_0: \mathbf{p}= \mathbf{p}_0 \tag{8.2}\] contre l’hypothèse alternative \[H_1:\mathbf{p} \neq \mathbf{p}_0, \tag{8.3}\] pour une valeur de \(\mathbf{p}_0\) fixée au préalable. À partir de maintenant, on supposera implicitement que toutes les entrées de \(\mathbf{p}_0\) sont non nulles — cela garantira que les limites en loi trouvées ci-dessous ne sont pas dégénérées.

Exemple 8.1 On peut se demander si, dans la langue courante, les 21 lettres de l’alphabet ont à peu près la même probabilité d’apparaître comme première lettre d’un mot. Cela revient à tester si \(\mathbf{p}_0=(1/26, \dotsc, 1/26)\), hypothèse qui est évidemment fausse.

Qu’en est-il des 9 chiffres ? On peut vouloir tester si, dans n’importe quel document (journal, site internet, article scientifique), ces 9 chiffres apparaissent à peu près uniformément en tant que premier chiffre d’un nombre. Cela reviendrait à tester \(\mathbf{p}_0 = (1/9, \dotsc, 1/9)\).

Ce n’est pas le cas et cette hypothèse est très fréquemment réfutée : le premier chiffre significatif d’un nombre est bien plus souvent 1 (\(\approx 30\%\) des cas) que \(9\) (\(\approx 5\%\) cas). Ce phénomène s’appelle loi de Benford.

Le théorème Théorème 8.1 dit que \(\sqrt{n}(\frac{N}{n}- \mathbf{p}) \approx N(0, \Sigma)\). Notons \(\sqrt{\mathbf{p}_0} = (\sqrt{p_1}, \dotsc, \sqrt{p_k})\) et \(D = \mathrm{diag}(\sqrt{\mathbf{p}}_0)\). Sous \(H_0\), \(D^{-1} \sqrt{n}(\frac{N}{n}- \mathbf{p}_0)\) converge en loi vers \(D^{-1}N(0,\Sigma) = N(0,D^{-1}\Sigma (D^{-1})^\top)\). Que vaut cette matrice de covariance ? 

D’abord, comme \(D\) est diagonale, \(D^{-1}\) l’est aussi et \((D^{-1})^\top\) vaut \(D^{-1}\). De plus, \(D^2\) est égal à \(\mathrm{diag}(\mathbf{p}_0)\). Enfin, en faisant la multiplication on voit vite que \(D^{-1}\mathbf{p}_0 = \sqrt{\mathbf{p}}_0\). Ainsi, on voit que \(D^{-1}\Sigma D^{-1}\) vaut également \[D^{-1}D^2 D^{-1} - D^{-1}\mathbf{p}_0 \mathbf{p}_0 D^{-1} = I_k - \sqrt{\mathbf{p}}_0 \mathbf{p}_0^{\top}.\] En regroupant tout cela, on obtient donc que \(D^{-1}\sqrt{n}(N/n - \mathbf{p}_0)\) converge en loi vers \[N(0, I_k - \sqrt{\mathbf{p}_0} \sqrt{\mathbf{p}_0}^T).\] La statistique qui va nous servir à faire des tests est tout simplement la norme au carré de \(D^{-1}\sqrt{n}(N/n - \mathbf{p}_0)\). En manipulant légèrement cette expression, on obtient sa forme usuelle, le contraste du \(\chi_2\).

Définition 8.1 (Contraste du \(\chi_2\)) Dans le contexte ci-dessus, le contraste du \(\chi_2\) associé à la loi \(\mathbf{p}\) est la statistique

\[ D_n(\mathbf{p}) = \sum_{j=1}^k \frac{(N_j - n{p}_j)^2}{n{p}_j}.\]

Pour faire des tests, il suffit donc de trouver la loi asymptotique de cette statistique.

Théorème 8.2 Sous l’hypothèse nulle Équation 8.2, la statistique \(D_n\) converge en loi vers \(\chi_2(k-1)\). De plus, sous l’hypothèse alternative Équation 8.3, \(D_n\) tend vers \(+\infty\) presque sûrement.

Preuve. Comme \(|\sqrt{\mathbf{p}_0}|\) vaut 1, la matrice \(\pi_0=I_k -\sqrt{\mathbf{p}_0} \sqrt{\mathbf{p}_0}^T\) est la matrice de projection sur l’orthogonal du vecteur \(\sqrt{\mathbf{p}_0}\) (je vous renvoie à l’appendice Chapitre 20). Le théorème de Cochran (Théorème 11.3) implique alors que la statistique \(D_n\), qui est égale à \[ \left| \mathrm{diag}(1/\sqrt{\mathbf{p}_0}) \sqrt{n}\left(\frac{N}{n}- \mathbf{p}_0\right) \right |^2, \tag{8.4}\] converge en loi vers la norme de la projection d’une gaussienne \(N(0,I_k)\) sur un sous-espace de dimension \(k-1\), c’est-à-dire une loi \(\chi_2(k-1)\). Sous l’hypothèse alternative, il y a au moins un \(p_i\) non nul tel que \(p_i \neq (p_0)_i\). Ainsi, Équation 8.4 est plus grand que \(n(N_i/n - (p_0)_i)^2 / p_i\), mais \(N_i\) suit une loi \(\mathrm{Bin}(n,p_i)\) et donc \(N_i / n\) converge en probabilité vers \(p_i\). Il est alors clair que \(n(N_i/n - (p_0)_i)\) converge vers \(+\infty\).

Un test de niveau \(1-\alpha\) pour l’hypothèse Équation 8.2 est alors donné par la région de rejet \[ \{ D_n(\mathbf{p}_0) > \kappa_{k-1, 1-\alpha} \}\]

\(\kappa_{k-1, 1-\alpha}\) est le quantile d’ordre \(1-\alpha\) d’une \(\chi^2(k-1)\). Si \(\mathbf{p}\) n’est pas égal à \(\mathbf{p}_0\), le contraste \(D_n\) tend vers l’infini, donc le test sera forcément dans la zone de rejet : si l’hypothèse alternative est simple, la puissance du test tend donc vers 1.

8.3 Test d’indépendance

Les tests du \(\chi_2\) d’indépendance sont omniprésents en sciences humaines. Dans ces tests, on observe des variables aléatoires qui sont des couples à valeur dans deux espaces discrets ; disons, pour simplifier, que cet espace est \(\Omega = \{1, \dotsc, k\}\times \{1, \dotsc, h\}\). Les observations \((x_i, y_i)\) sont des réalisations d’une variable aléatoire \((X,Y)\). Ici, le modèle statistique sera donc \((\mathbf{p}^{\otimes n} : \mathbf{p} \in S_{k,h})\), où \(S_{k,h}\) est l’ensemble des \(\mathbf{p} = (p_{i,j}, i \in \{1,\dots, k\}, j\in \{1, \dots, h\})\) qui sont des lois de probabilité.

Si \(\mathbf{p}\) est la loi de \((X,Y)\), alors \(X\) et \(Y\) sont indépendantes si et seulement si \(\mathbf{p}\) peut s’écrire sous la forme \(p_{i,j} = p^x_i p^y_j\), où \(\mathbf{p}^x \in S_k\) et \(\mathbf{p}^y \in S_h\). L’ensemble de ces lois sera noté \(I_{k,h}\) (« I » pour « Indépendant » ). Les tests d’indépendance visent à tester l’hypothèse nulle \[ H_0 : \mathbf{p}\in I_{k,h} \tag{8.5}\] contre l’hypothèse alternative \[ H_1 : \mathbf{p} \notin I_{k,h}.\]

Exemple 8.2 On récolte des données sur le groupe socio-professionnel (GSP) et le genre. Chaque observation correspond à une personne, possédant deux attributs : \(\mathtt{genre}\), valant 0 ou 1, et \(\mathtt{GSP}\), valant l’une des 6 groupes définis par l’INSEE (Agriculteur, artisan, cadre, etc.). Le test ci-dessus vise à déterminer si les deux modalités sont indépendantes, c’est-à-dire si la proportion d’hommes et de femmes dans chaque groupe ne diffère pas significativement en fonction du groupe.

La procédure pour effectuer un tel test nécessite plusieurs étapes.

Si \(\mathbf{p}\) était effectivement la loi de deux variables indépendantes \(\mathbf{p}^x\) et \(\mathbf{p}^y\), alors ses marginales seraient précisément \(\mathbf{p}^x\) et \(\mathbf{p}^y\), que l’on pourrait facilement estimer. Pour chaque \(i\) et chaque \(j\), les estimateurs \(\hat{\mathbf{p}}^x\) et \(\hat{\mathbf{p}}^y\) définis par \[\hat{p}^x_i = \frac{\sum_{j=1}^h N_{i,j}}{n}\] et \[\hat{p}^y_j = \frac{\sum_{i=1}^k N_{i,j}}{n}\] sont effectivement des estimateurs sans biais et convergents des quantités \(p^x_i, p^y_j\). De plus, sous l’hypothèse nulle, \(\hat{p}^x_i \hat{p}^y_i\) serait effectivement un estimateur convergent de \(p_{i,j}\).

De plus, si \(\mathbf{p}\) était effectivement de la forme \(\hat{\mathbf{p}}^x\hat{\mathbf{p}}^y\), alors la moyenne théorique des éléments de classe \((i,j)\) serait \(n\hat{p}^x_i \hat{p}^y_j\). Cette quantité, notée \(\check{N}_{i,j}\), s’appelle effectif théorique. Nous pouvons maintenant construire la statistique qui nous servira à tester tout cela.

Définition 8.2 (Statistique de Pearson) La statistique de Pearson est définie par

\[C_n = \sum_{i=1}^k \sum_{j=1}^h \frac{(N_{i,j} - \check{N}_{i,j})^2}{\check{N}_{i,j}}. \]

Cette statistique possède une loi limite connue, encore en vertu du théorème de Cochran. Noter que la statistique de Pearson possède une expression alternative, \[C_n = \sum\sum \frac{n(\hat{p}_{i,j} - \hat{p}^x_i \hat{p}^y_j)^2}{\hat{p}^x_i \hat{p}^y_j}. \]

Théorème 8.3 (Loi de la statistique de Pearson) Sous l’hypothèse nulle Équation 8.5, \(C_n\) converge en loi vers \[ \chi_2((k-1)(h-1)).\] De plus, pour n’importe quelle loi \(\mathbf{p}_1\) qui n’est pas dans \(I_{k,h}\), \(C_n \to +\infty\) presque sûrement.

Preuve. C’est une conséquence un peu plus technique du théorème de Cochran.

Tout cela permet encore une fois d’obtenir des tests très efficacement : en abrégeant \(\kappa_{1 - \alpha} = \kappa_{(k-1)(h-1), 1-\alpha}\), on obtient que \(\mathbb{P}(C_n > \kappa_{1-\alpha}) \to \alpha\). Ainsi, la région de rejet \[\{C_n > \kappa_{1-\alpha}\} \] fournit un test de niveau asymptotique \(1-\alpha\). La seconde partie du théorème dit que si la véritable loi sous-jacente n’est effectivement pas la loi de deux variables indépendantes, alors ce test sera systématiquement rejeté — autrement dit, si l’hypothèse alternative est simple, la puissance de ce test tend vers 1.