$$ \newcommand{\bx}{\boldsymbol{x}} \newcommand{\bt}{\boldsymbol{\theta}} \newcommand{\bmu}{\boldsymbol{\mu}} \newcommand{\dkl}{\mathrm{d}_{\mathrm{KL}}} \newcommand{\dtv}{\mathrm{d}_{\mathrm{TV}}} \newcommand{\emv}{\hat{\theta}_{\mathrm{emv}}} \newcommand{\ent}{\mathrm{Ent}} $$

4  Répartitons et inégalités

4.1 Quantiles

4.1.1 Quantiles des lois continues

Si \(X\) est une variable aléatoire continue sur \(\mathbb{R}\), un quantile d’ordre \(\beta \in ]0,1[\), noté \(q_\beta\), est un nombre tel que \(\mathbb{P}(X \leqslant q_\beta) = \beta\). Lorsque la fonction de répartition \(F(x) = \mathbb{P}(X\leqslant x)\) est une bijection continue, le quantile \(q_\beta\) est unique et est donné par \(q_\beta = F^{-1}(\beta)\). En règle générale, il n’y a pas de forme fermée. Par exemple, pour la gaussienne standard, \[F(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^x e^{-u^2/2}du\] qui elle-même n’a pas d’écriture plus simple et ne peut donc pas être inversée simplement. Fort heureusement, les outils de calcul numérique permettent d’effectuer ces calculs avec une grande précision.

Les quantiles symétriques \(z_\beta\) sont, eux, définis par \(\mathbb{P}(|X|\leqslant z_\beta) = \beta\). Si la loi de \(X\) est de surcroît symétrique, les quantiles symétriques s’expriment facilement en fonction des quantiles classiques. En effet, \(\mathbb{P}(|X|\leqslant z)\) est égal à \(\mathbb{P}(X \leqslant z) - \mathbb{P}(X \leqslant -z)\). Or, si la loi de \(X\) est symétrique, alors \(\mathbb{P}(X \leqslant -z) = 1 - \mathbb{P}(X \leqslant z)\), et donc \[ \mathbb{P}(|X|\leqslant z) = 2\mathbb{P}(X \leqslant z) - 1.\] Il suffit alors de choisir pour \(z\) le quantile \(q_{\frac{1+\beta}{2}}\) pour obtenir \(\mathbb{P}(|X|\leqslant z) = \beta\). Lorsque \(\beta\) est de la forme \(1-\alpha\) avec \(\alpha\) petit (comme les niveaux des intervalles de confiance), on trouve alors \(z_{1-\alpha} = q_{1 - \alpha/2}\).

La table suivante donne les quantiles symétriques de la gaussienne.

\(\beta\) 90% 95% 98% 99% 99.9% 99.99999%
\(z_\beta\) 1.64 1.96 2.32 2.57 3.2 5.32

Voir aussi la règle 1-2-3. Il existe de nombreuses tables de quantiles pour les lois usuelles.

4.1.2 Quantiles généraux

Dans le cas général où la fonction de répartition \(F(x) = \mathbb{P}(X \leqslant x)\) n’est pas continue (par exemple pour les lois discrètes ou les mesures empiriques), on peut toujours définir les quantiles de n’importe quel ordre \(\beta \in [0,1]\) en prenant la plus petite valeur \(q\) telle que \(\mathbb{P}(X \leqslant q) \geqslant \beta\). Autrement dit, \[q(\beta) = \inf \{t : F(t) \geqslant \beta \}. \tag{4.1}\] Notons que \(F\) est continue à droite : comme il y a une suite \(q_n \to q(\beta)\) telle que \(q_n>q(\beta)\) et \(F(q_n)\geqslant \beta\), on voit que \(F(q(\beta)) = \lim F(q_n) \geqslant \beta\). Mais il n’y a pas toujours égalité !

4.1.3 Médianes et fractiles

Une médiane est un quantile d’ordre 1/2. Les quartiles sont les quantiles d’ordre 1/4 et 3/4. Les déciles sont les quantiles d’ordre 1/10, 2/10, …, 9/10. Ces quantités permettent également de voir la dispersion d’un jeu de données : typiquement, si les deux quartiles sont très proches, la dispersion est faible.

4.2 Extrêmes et queues de distribution

La fonction de survie d’une variable aléatoire \(X\) est la fonction \(S(x) = \mathbb{P}(X > x)\). Son asymptotique lorsque \(x\) est grand est d’une importance capitale : elle permet d’estimer des probabilités d’événements très rares, comme par exemple « le rendement de cet actif va dépasser les \(x\)% en un an », avec \(x\) gigantesque.

Intuitivement, plus la fonction de Survie tend vite vers 0, plus rares sont les événements extrêmes. Une référence à toujours garder en tête est la décroissante de la fonction de survie de la loi gaussienne.

Théorème 4.1 (Queues de distribution de la gaussienne) Si \(x\) est plus grand que 1, \(\mathbb{P}(X > x)\) est compris entre \[ \left(1 - \frac{1}{x^2}\right) \frac{1}{x}\frac{e^{-x^2/2}}{\sqrt{2\pi}} \tag{4.2}\] et \[ \frac{1}{x}\frac{e^{-x^2/2}}{\sqrt{2\pi}}. \tag{4.3}\]

En particulier, si \(x\) est grand, \[\mathbb{P}(X \geqslant x) \sim e^{-x^2/2}/x\sqrt{2\pi}\] avec une erreur d’ordre \(O(e^{-x^2/2}/x^3)\).

À titre d’exemple, pour \(x=2.32\) cette approximation donne 98.83%, ce qui est remarquablement proche de 98%. Pour \(x = 2.57\) on trouve 99.42%.

Preuve. Le nombre \(\mathbb{P}(X>x)\) est exactement égal à \((2\pi)^{-1/2}\int_x^\infty e^{-t^2/2}dt\). En multipliant et en divisant l’exponentielle dans l’intégrale par \(t\) et en faisant une intégration par parties, on peut écrire ceci sous la forme \[ \frac{e^{-x^2/2}}{x\sqrt{2\pi}} - \int_x^\infty \frac{e^{-t^2/2}}{t^2\sqrt{2\pi}}dt.\] Comme l’intégrale \(I\) à droite est positive, tout ce terme est bien plus petit que Équation 4.2. Par ailleurs, en refaisant la même astuce, on peut écrire \(I\) sous la forme \[ \frac{e^{-x^2/2}}{x^3\sqrt{2\pi}} - 2\int_x^\infty \frac{e^{-t^2/2}}{t^3\sqrt{2\pi}}dt.\] Si \(J\) est la nouvelle intégrale à droite, elle est positive ; on a donc montré que \(\mathbb{P}(X>x)\) est aussi égal à \[ \left(1 - \frac{1}{x^2}\right) \frac{1}{x}\frac{e^{-x^2/2}}{\sqrt{2\pi}} + J\] et donc, est plus grand que Équation 4.3.

Cette décroissance est extrêmement rapide, puisqu’elle est plus qu’exponentielle. Il existe une très grande classe de variables aléatoires pour lesquelles cette décroissance est beaucoup plus lente : les lois à queue lourde.

Définition 4.1 On dit qu’une variable aléatoire \(X\) est à queue lourde s’il existe une constante \(c>0\) telle que \(\mathbb{P}(X>x) \sim c x^{-\alpha}\) pour \(x\) grand, avec \(\alpha>0\).

Dans la “vraie” définition, on autorise \(c\) à ne pas être constante, mais à dépendre de \(x\) très très lentement, c’est-à-dire à être une fonction à variation lente au sens de Karamata. Je ne rentrerai pas dans les détails.

L’indice \(\alpha\) donne une idée de la fréquence des événements extrêmes : plus \(\alpha\) est grand, plus la décroissance de \(S\) est rapide et donc les événements extrêmes sont rares. Plus \(\alpha\) est petit, plus les événements extrêmes sont fréquents. Une loi à queue lourde avec \(\alpha \leqslant 1\) n’a même pas d’espérance !

L’estimation du paramètre \(\alpha\) à partir d’un échantillon est un sujet important en statistiques, sur lequel on reviendra plus tard.

4.3 Courbe de Lorenz et indice de Gini

La courbe de Lorenz de la loi d’une variable aléatoire \(X\) est la courbe qui indique quelle fraction de la masse totale est allouée à chaque fraction de la population : typiquement, quand on dit que 50% d’une population possède 30% de la richesse, on dit que la courbe de Lorenz passe par le point \((0.5, 0.3)\). Pour n’importe quel \(x \in \mathbb{R}\), la fraction de la population qui possède moins de \(x\) est \(F(x) = \mathbb{P}(X\leqslant x)\); mais la masse allouée à cette fraction est égale à \(\mathbb{E}[X\mathbf{1}_{\{X \leqslant x\}}]\). Comme la masse totale est tout simplement \(\mathbb{E}[X]\), la fraction de la masse allouée à \(]-\infty, x]\) est \(m(x) = \mathbb{E}[X\mathbf{1}_{X \leqslant x}]/\mathbb{E}[X]\). La courbe de Lorenz est donc la courbe \[\left(F(x), \frac{\mathbb{E}[X\mathbf{1}_{X \leqslant x}]}{\mathbb{E}[X]}\right)_{x \in \mathbb{R}}.\] Elle passe forcément par les points \((0,0)\) et \((1,1)\), et elle est croissante. En fait, lorsque \(F^{-1}\) existe, on peut aussi écrire que la courbe de Lorenz est \[\left(t, \frac{\mathbb{E}[X\mathbf{1}_{X \leqslant F^{-1}(t)}]}{\mathbb{E}[X]}\right)_{t \in [0,1]}.\] En faisant le changement de variables \(s = F(u)\), on a \[\begin{align*}\mathbb{E}[X\mathbf{1}_{X \leqslant F^{-1}(t)}] &= \int_{-\infty}^{F^{-1}(t)} u f(u)du \\ &= \int_0^t F^{-1}(s) ds \\ &= \int_0^t q(s)ds \end{align*}\]\(q\) est la fonction quantile. Cela donne lieu à une définition générale de la courbe de Loreznz.

Définition 4.2 La courbe de Lorenz est la courbe intégrale des quantiles (normalisés), c’est-à-dire la représentation graphique de la fonction \[ t\mapsto \mathscr{L}(t) =\frac{\int_0^t q(s)ds}{\int_0^1 q(s)ds}.\]

La dérivée de cette fonction, lorsqu’elle existe, est égale à \(q(t)/\mathbb{E}[X]\). Or, la fonction quantile est une fonction positive et croissante : la courbe de Lorenz est donc convexe, et comme toutes les fonctions convexes, elle est en dessous de ses cordes. En particulier, elle est en dessous de la droite qui relie les points \((0,0)\) et \((1,1)\), c’est-à-dire la diagonale. Cette diagonale représenterait un cas d’égalité parfaite entre la population et la richesse. L’écart entre la courbe de Lorenz et la diagonale est donc une mesure de l’inégalité de la distribution.

Définition 4.3 L’indice de Gini est le double de l’aire entre la courbe de Lorenz et la diagonale : \[G = 2\int_0^1 (t - \mathscr{L}(t)) dt.\]

On prend le double pour avoir une quantité entre 0 et 1 (et pas entre 0 et 1/2).