$$ \newcommand{\bx}{\boldsymbol{x}} \newcommand{\bt}{\boldsymbol{\theta}} \newcommand{\dkl}{\mathrm{d}_{\mathrm{KL}}} \newcommand{\dtv}{\mathrm{d}_{\mathrm{TV}}} \newcommand{\emv}{\hat{\theta}_{\mathrm{emv}}} \newcommand{\ent}{\mathrm{Ent}} $$

19  Test de Kolmogorov-Smirnov

On souhaite maintenant tester la distribution d’un échantillon \((x_1, \dotsc, x_n)\), c’est-à-dire tester l’hypothèse nulle : « les \(x_i\) sont des réalisations d’une variable aléatoire dont la fonction de répartition est \(F\) », où \(F\) est une fonction de répartition fixée. Le théorème de Glivenko-Cantelli dit que \(|F_n - F|_\infty\), sous l’hypothèse nulle, tend vers zéro. On rejettera donc l’hypothèse nulle si \(|F_n - F|\) est trop grand ; mais à quel seuil ? La démonstration du théorème et l’inégalité DKW disent que la bonne échelle est \(\sqrt{n}\) : en effet, \(\mathbb{P}(|F_n - F|_\infty > \sqrt{\alpha/n}) = O(1/t^2)\). Un test dont la région de rejet est de la forme \[\left\lbrace |F_n - F|_\infty > \frac{10}{\sqrt{n}}\right\rbrace\] aura un niveau de confiance d’ordre \(1-\alpha\), ce qui fournit déjà un test non-asymptotique. L’utilisation de l’inégalité DKW permet d’avoir une région de rejet encore plus grande.

En réalité, si l’on suppose seulement que \(F\) est continue, il se trouve que \(\sqrt{n}|F_n - F|_\infty\) converge en loi vers une loi connue dont on connaît les quantiles.

Théorème 19.1 (Kolmogorov-Smirnov) \(\sqrt{n}|F_n - F|_\infty\) converge en loi vers \(|B|_\infty\), où \((B_t)_{t\in [0,1]}\) est un mouvement Brownien standard. La loi de cette variable aléatoire positive est appelée loi de Kolmogorov-Smirnov, et sa fonction de répartition \(\mathbb{P}(|B|_\infty \leqslant x)\) est donnée par \[1 - 2\sum_{k=0}^\infty (-1)^k e^{-2x^2 (k+1)^2}.\]

Ce théorème permet de construire des tests aymptotiques de niveau exactement \(1-\alpha\).

Théorème 19.2 Si \(X_1, \dotsc, X_n\) suivent une loi de fonction de répartition \(G \neq F\), alors \(\sqrt{n}|F_n - F|_\infty \to \infty\) presque sûrement.