$$ \newcommand{\bx}{\boldsymbol{x}} \newcommand{\bt}{\boldsymbol{\theta}} \newcommand{\dkl}{\mathrm{d}_{\mathrm{KL}}} \newcommand{\dtv}{\mathrm{d}_{\mathrm{TV}}} \newcommand{\emv}{\hat{\theta}_{\mathrm{emv}}} \newcommand{\ent}{\mathrm{Ent}} $$

7  Théorie des tests simples

7.1 La distance en variation totale

Lorsqu’on cherche à tester une hypothèse de type \(\text{loi} = P\) contre une hypothèse de type \(\mathrm{loi} = Q\) (c’est-à-dire, deux hypothèses simples), on en revient à chercher un événément très improbable sous la loi \(P\), et très probable sous la loi \(Q\). On peut se demander en toute généralité quels sont les événements pour lesquels ces probabilités diffèrent le plus, c’est-à-dire les événements \(A\) qui maximisent \(P(A) - Q(A)\). Cela mène directement à la définition de la variation totale.

Définition 7.1 (distance en variation totale) Soient \(P,Q\) deux mesures de probabilité sur un même espace \((\mathcal{X}, \mathscr{F})\). Leur distance en variation totale est \[ \dtv(P,Q) = \sup_{A \in \mathscr{F}}P(A) - Q(A). \]

La distance en variation totale est un objet important en probabilités, qui possède de nombreuses propriétés. Parmi elles, voici les plus importantes.

  1. C’est une distance sur l’espace des mesures de probabilité.
  2. Elle génère une topologie plus fine que celle de la convergence en loi ; autrement dit, si \(\dtv(P_n, Q) \to 0\) alors \(P_n\) converge en loi vers \(Q\) mais l’inverse n’est pas vrai.

Proposition 7.1 Soit \(\nu\) une mesure telle que \(P\) et \(Q\) sont absolument continues1 par rapport à \(\nu\), de densités respectives \(p\) et \(q\) par rapport à \(\nu\). Alors, \(\dtv(P,Q)\) est égale à chacune des quantités suivantes :

\[\int_{\mathcal{X}} (p(x) - q(x))_+\mathrm{d}\nu\] \[ \frac{1}{2}\int_{\mathcal{X}} |p(x) - q(x)|\mathrm{d}\nu. \tag{7.1}\]

De plus, notons \(E\) l’ensemble mesurable \(\{x \in \mathcal{X} : p(x)>q(x)\}\). Alors, \[\dtv(P,Q) = P(E) - Q(E). \tag{7.2}\]

L’hypothèse selon laquelle \(P,Q\) sont a.c. par rapport à \(\nu\) est toujours vérifiée pour \(\nu = (P+Q)/2\), et n’est donc pas restrictive.

Preuve. Pour tout événement \(A \in \mathscr{F}\), la différence \(P(A) - Q(A)\) est égale à \(\int_A p(x) - q(x) \mathrm{d}\nu\), qui peut elle-même s’écrire sous la forme \[\int_{A \cap E} (p - q) \mathrm{d}\nu + \int_{A \cap \bar{E}} (p - q) \mathrm{d}\nu.\] Le second terme est négatif, puisque si \(x \notin E\) alors \(p(x)\leqslant q(x)\). Ainsi, \(P(A) - Q(A)\) est plus petit que le premier terme, lequel est à son tour plus petit que \(\int_E (p-q)d\nu = P(E) - Q(E)\). Cela montre directement Équation 7.2. Au passage, il est évident que \[\int_E (p(x)-q(x))\mathrm{d}\nu = \int_{\mathcal{X}}(p(x) - q(x))_+ \mathrm{d}\nu, \] ce qui montre la première égalité de Équation 7.1. La seconde égalité résulte de la première, puisque comme \(p\) et \(q\) sont des densités de probabilité, on a forcément \(\int (p-q)_+ = \int(p-q)_-\).

Dans la suite, on supposera toujours que les diverses lois possèdent toutes une densité par rapport à une mesure de référence \(\nu\). C’est le cas dans de très nombreux modèles — pas tous, hélas. Les lettres majuscules désigneront les mesures, tandis que les lettres minuscules désigneront leurs densités.

7.2 Test optimal au sens de l’affinité

L’affinité d’un test est la somme de ses erreurs de première et seconde espèce : c’est la probabilité de « se tromper » en général, quelle que soit l’hypothèse.

Théorème 7.1 Soit \(\mathfrak{T}\) l’ensemble des tests possibles de l’hypothèse \(H_0 : P = P_0\) contre l’hypothèse alternative \(H_1 : P = P_1\). Alors, le test possédant la meilleure affinité possible parmi tous les tests possibles vérifie \[\inf_{T \in \mathfrak{T}}~\{\alpha_T + \beta_T \} = 1 - \dtv(P_0, P_1). \] En particulier, le test optimal pour l’affinité est donné par la région de rejet \[ \mathsf{rejeter}_\star = \{p_0(x) < p_1(x)\}.\]

Preuve. Soit \(T\) n’importe quel test. Son affinité est \(P_1(\{T=0\}) + P_0(\{T=1\})\). En passant au complémentaire dans le second terme, on obtient \[1 - (P_0(\{T=0\}) - P_1(\{T=0\})). \] Cette quantité est forcément plus petite que \(1 - \dtv(P_0, P_1)\) par la définition même de la variation totale. De plus, cette borne est atteinte en choisissant le test \(T\) donné dans l’énoncé, d’où l’égalité.

Commentaire. Le théorème précédent semble donner au problème de la construction de tests une réponse définitive : il donne le test optimal au sens de l’affinité, test qui est élémentaire et intuitif. En effet, si \(P_0, P_1\) sont les deux lois et si \((x_1, \dotsc, x_n)\) est l’échantillon observé, alors on rejette l’hypothèse nulle si la probabilité de cette observation est plus grande sous \(P_1\) que sous \(P_0\) : autrement dit, si \[ \frac{p_1(x_1, \dotsc, x_n)}{p_0(x_1, \dotsc, x_n)}>1. \] Le terme de droite s’appelle rapport de vraisemblance. Pourtant, ce test ne permet pas de contrôler l’erreur de première espèce. Il peut tout à fait exister d’autres tests qui ont un niveau plus élevé. Il est donc naturel de se demander si, parmi les tests ayant un niveau fixé \(1-\alpha\), il existe un autre critère d’optimalité.

7.3 Théorème de Neyman-Pearson

On se place toujours dans un cadre où les deux lois \(P_0\) et \(P_1\) possèdent deux densités \(p_0, p_1\) par rapport à une mesure commune \(\nu\).

Définition 7.2 Un test du rapport de vraisemblance est un test dont la région de rejet est de la forme \[\mathsf{rejeter}= \left\lbrace \frac{p_1(x)}{p_0(x)} > z \right\rbrace \tag{7.3}\] pour un certain \(z>0\).

Le test optimal au sens de l’affinité est un test de rapport de vraisemblance (\(z=1\)).

Théorème 7.2 (Théorème de Neyman-Pearson) Tout test de même niveau qu’un test du rapport de vraisemblance est moins puissant que celui-ci.

Preuve. On suppose que la région de rejet de \(T_\star\) est de la forme Équation 7.3. Soit \(T\) un autre test de même niveau que \(T_\star\). La quantité \[ \int_{\mathcal{X}} (T(x) - T_\star(x))(p_1(x) - z p_0(x))\mathrm{d}\nu \] est forcément négative ou nulle : en effet, si \(T_\star(x)=1\), alors \(T(x)-T_\star(x) = T(x)-1 \leqslant 0\), mais \(p_1(x)\) est plus grand que \(zp_0(x)\), donc \((p_1(x) - zp_0(x))\geqslant 0\). De même, si \(T(x) = 0\), alors cette fois ce terme est négatif. Dans les deux cas, la fonction dans l’intégrale est toujours le produit de deux nombres de signes opposés : elle est donc négative. Or, en développant cette intégrale, on constate qu’elle vaut aussi \[P_1(T=1) - P_1(T_\star=1) - zP_0(T=1)+zP_0(T_\star=1). \] Tout ceci n’est rien d’autre que \(\beta_\star-\beta - z(\alpha-\alpha_\star)\), où \(\alpha, \beta\) désignent les deux types d’erreurs du test \(T\) et \(\alpha_\star, \beta_\star\) celles de \(T_\star\). Mais nous avons supposé que \(\alpha = \alpha_\star\) : des deux termes ci-dessus, ne reste que le premier, à savoir \(\beta_\star - \beta\), qui est bien négatif comme demandé.

7.4 Un exemple de test de rapport de vraisemblance

Plaçons-nous dans un modèle de Bernoulli : on a des variables aléatoires \(X_1, \dotsc, X_n\) iid de loi \(\mathrm{Ber}(p)\), et l’on souhaite tester une valeur \(p_0\) de \(p\) contre une valeur \(p_1 \neq p_0\) à partir d’une réalisation \(x_1, \dotsc, x_n\) du modèle.

Ici, les lois sont discrètes : elles possèdent une densité par rapport à la mesure de comptage. La probabilité d’observer \(x_1, \dotsc, x_n\) dans le modèle avec paramètre \(p\) est égale à \[\prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} = p^s(1-p)^{n-s}\]\(s = x_1 + \dotsc + x_n\). Ainsi, le rapport des vraisemblances \(r\) est égal à \[\frac{p_1^s (1-p_1)^{n-s}}{p_0^s(1-p_0)^{n-s}} = \left(\frac{p_1(1-p_0)}{p_0(1-p_1)}\right)^s\left(\frac{1-p_1}{1-p_0}\right)^n. \] Le théorème de Neyman-Pearson dit qu’un test de la forme \(r>z\) est plus puissant que tous les tests ayant le même niveau. Or, cette région de rejet peut encore s’écrire \[ s \ln \left(\frac{p_1(1-p_0)}{p_0(1-p_1)}\right) > \ln(z) - n\ln\left(\frac{1-p_1}{1-p_0}\right).\]

Dans le cas où \(p_0<p_1\), alors par croissance \(p_1 / (1-p_1)\) est plus grand que \(p_0/(1-p_0)\), et donc cette région de rejet peut encore s’écrire \[ \frac{s}{n} > \frac{\ln(z)/n - \ln((1-p_1)/(1-p_0))}{\ln \left(\frac{p_1(1-p_0)}{p_0(1-p_1)}\right) }.\] Cette écriture n’a rien d’intéressant en soi. Tout ce qui compte, c’est que la région de rejet optimale au sens de Neyman-Pearson est de la forme \(\{\bar{X}_n > z'\}\)\(z'\) correspond au terme de droite ci-dessus.

Dans le cas où \(p_0>p_1\), alors le même raisonnement donne une région de rejet de la forme \(\{\bar{X}_n < z'\}\).

La détermination de \(z'\) dépendra du niveau de confiance que l’on veut se donner. L’erreur de première espèce est \(P_{p_0}(\bar{X}_n > z')\), qui est la probabilité qu’une binomiale \(\mathrm{Bin}(n,p_0)\) soit plus grande que \(nz'\). En choisissant pour \(nz'\) le quantile de niveau \(1-\alpha\) de cette loi, la probabilité ci-dessus est plus petite que \(\alpha\) et le test est de niveau de confiance supérieur à \(1-\alpha\).

7.5 Une borne sur la variation totale

Ce chapitre n’a pas été vu en cours et n’est pas au programme.

La construction du test optimal au sens de l’affinité nécessite le calcul de la distance en variation totale, laquelle peut être notoirement difficile : - d’abord, parce que la formule Équation 7.1 peut être impossible à calculer même si \(P\) et \(Q\) sont connues ; - ensuite, parce que \(Q\) elle-même peut parfois être très difficile à calculer (le calcul peut être de complexité exponentielle).

En pratique, on peut chercher à borner cette distance par d’autres quantités plus faciles à calculer. Parmi ces quantités, la divergence de Kullback-Leibler joue un rôle extrêmement important, notamment pour son lien avec le maximum de vraisemblance que nous verrons plus tard.

Définition 7.3 Soient \(P\) et \(Q\) deux mesures, \(P\) étant absolument continue par rapport à \(Q\). Alors,

\[ \dkl(P \mid Q) = \int \ln \left(\frac{\mathrm{d}P}{\mathrm{d}Q}\right)dP. \]

Si \(P\) n’est pas absolument continue par rapport à \(Q\), on pose simplement \(\dkl(P \mid Q) = +\infty\).

La notation \(\mathrm{d}P/\mathrm{d}Q\) désigne la densité de \(P\) par rapport à \(Q\). Formellement, c’est la dérivée de Radon-Nikodym. Dans le cas de variables aléatoires continues sur \(\mathbb{R}^d\), c’est le rapport des densités de \(P\) et de \(Q\).

La divergence \(\dkl\) n’est pas une distance, et c’est pour cela qu’on l’appelle divergence et qu’on la note avec une barre plutôt qu’une virgule : elle n’est pas symétrique en général. Cependant, elle est toujours positive (éventuellement égale à \(+\infty\) même si \(P\ll Q\)), et n’est nulle que si \(P=Q\).

Théorème 7.3 (Borne de Bretagnole-Huber-Pinsker) \[ \dtv(P,Q) \leqslant \sqrt{1 - e^{-\dkl(P \mid Q)}}. \tag{7.4}\]

\[~~\]

Remarque. Il est facile de vérifier que \(\sqrt{1-e^{-x}}\leqslant \sqrt{x}\) lorsque \(x>0\). Ainsi, Équation 7.4 entraîne la borne plus simple \(\dtv \leqslant \sqrt{\dkl}\). La borne classique de Pinsker améliore légèrement ce résultat, puisqu’elle dit que \(\dtv \leqslant \sqrt{\dkl/2}\).

Preuve. Si \(P\) n’est pas absolument continue par rapport à \(Q\), alors \(\dkl(P \mid Q)=+\infty\) et la borne demandée est vraie. Sinon, on note \(\rho\) la densité de \(P\) par rapport à \(Q\), de sorte que \(\dkl(P\mid Q) = -\int \ln \rho(x) \mathrm{d}P\). On définit ensuite \(v = (\rho-1)_+\) et \(w = (\rho-1)_-\), de sorte que \(vw\) vaut toujours 0, et donc \((1 + v)(1-w) = 1 - w + v = \rho\). En particulier, \(\dkl(P\mid Q)\) vaut \[\int(-\ln(1+v))dP + \int (-\ln(1-w))dP.\] Or, les deux fonctions \(x\mapsto -\ln(1+x)\) et \(x\mapsto -\ln(1-x)\) sont concaves sur leurs ensembles de définition. Ainsi, l’inégalité de Jensen entraîne d’une part \[ \int(-\ln(1+v))\mathrm{d}P \leqslant - \ln \left(1 + \int v \mathrm{d}P\right)\] et d’autre part \[ \int(-\ln(1-w))\mathrm{d}P \leqslant - \ln \left(1 - \int w \mathrm{d}P\right).\] Or, la formule Équation 7.1 montre que \(\int v\mathrm{d}P = \dtv(P,Q)\), et de même pour \(\int w \mathrm{d}P\). En additionnant les deux inégalités ci-dessus, on obtient Alors \[-\dkl \leqslant - \ln \left((1 + \dtv)(1 - \dtv\right)\] soit \(-\dkl \leqslant -\ln(1 - \dtv^2)\), c’est-à-dire Équation 7.4.


  1. Si \(P\) est absolument continue par rapport à \(Q\) (ce qu’on note \(P \ll Q\)), alors la dérivée de Radon-Nikodym existe, et c’est une fonction mesurable positive \(f\) (unique à un ensemble \(Q\)-négligeable près) qui vérifie \(P(A) = \int f(x)\mathbf{1}_{x\in A}\mathrm{d}Q\). On appelle cette fonction densité de \(P\) par rapport à \(Q\).↩︎