5 Exercices
5.1 Questions
- Calculer la moyenne, la variance, l’écart-type, l’asymétrie et la kurtosis des lois uniformes.
- Calculer l’asymétrie des lois Gamma.
- Montrer que la courbe de Lorenz d’une variable aléatoire réelle \(X\) est la même que celle de \(cX\) pour tout \(c > 0\).
- Trouver des exemples de variables aléatoires dont la médiane est différente de la moyenne.
- Montrer que \(\arg\min_{c\in \mathbb{R}} \mathbb{E}[|X-c|]\) est une médiane de \(X\).
- La courbe de Lorenz peut-elle être confondue avec la droite \((t,t)\) ?
- Calculer la courbe de Lorenz des lois uniformes, exponentielles, et de Pareto.
- Le principe de Pareto dit que, dans de nombreux contextes, 20% des efforts produisent 80% des résultats ; dit dans l’autre sens, 80% des efforts ne produisent que 20% des résultats. Quel est l’unique \(\alpha\) pour lequel la loi de Pareto d’indice \(\alpha\) correspond à ce principe ?
- Montrer que l’indice de Gini d’une variable aléatoire continue peut s’écrire \[G = \frac{1}{2\mathbb{E}[X]}\int_0^1 \int_0^1 |q(t) - q(s)| dt ds.\]
- Montrer que l’indice de Gini peut aussi s’écrire \[ G = \frac{2\mathrm{Cov}(X, F(X))}{\mathbb{E}[X]}.\]
- Vérifier que les coefficients de Pearson, de Spearman et de Kendall ne dépendent pas d’une même modification affine des deux variables. Par exemple, si on pose \(Z = aX + b\) et \(W = aY + b\), alors \(\rho(Z, W) = \rho(X, Y)\).
- Trouver un exemple où les coefficients de Spearman et de Kendall ne sont pas égaux.
- Soit \((X_1, \dotsc, X_n)\) un échantillon de variables aléatoires. On note \(X_{(1)}\leqslant \dotsc \leqslant X_{(n)}\) les variables ordonnées. Montrer que chaque \(X_{(i)}\) est une statistique.
5.2 Lois log-normales
On dit qu’une variable aléatoire positive est log-normale si elle s’écrit \(X = e^Y\) où \(Y\) est une variable aléatoire gaussienne.
- Calculer \(\mathbb{E}[X^t]\) pour tout \(t>0\).
- En déduire la moyenne, la variance, l’écart-type, la skewness et la kurtosis des lois log-normales.
- Calculer la courbe de Lorenz et l’indice de Gini des lois log-normales.
5.3 Inégalité de Hotelling-Solomons
Si \(m\) est la médiane, \(\mu\) la moyenne, et \(\sigma\) l’écart-type, montrer que \[|\mu - m| \leq \sigma.\]
5.4 Coefficient de Spearman
Soient \(X_1, \dotsc, X_n\) et \(Y_1, \dotsc, Y_n\) deux échantillons de taille \(n\) et \(R_i\) et \(S_i\) les rangs de \(X_i\) et \(Y_i\) dans leur échantillon respectif. On suppose que toutes les données sont distinctes.
- Calculer la moyenne empirique et la variance empirique1 des rangs \(R_i\) et \(S_i\).
- Montrer que le coefficient de Spearman est égal à \[1 - \frac{6 \sum_{i=1}^n (R_i - S_i)^2}{n(n^2 - 1)}.\]
5.5 Inégalité de Greiner
Soient \(X,Y\) deux variables aléatoires centrées conjointement gaussiennes, de corrélation \(\rho\) et d’écarts-types 1. L’objectif est de montrer que l’identité suivante, qui porte sur le coefficient \(\tau\) de Kendall :
\[\rho = \sin\left(\frac{\pi}{2} \mathbb{E}[\tau]\right).\]
- Montrer que \(\mathbb{E}[\tau] = 2 \mathbb{P}((X-X')(Y-Y')>0)-1\) où \((X',Y')\) est une copie indépendante de \((X,Y)\). On notera dorénavant \(p = \mathbb{P}((X-X')(Y-Y')>0)\).
- Calculer cette probabilité lorsque \(\rho = 0\).
- On pose \(A = X-X'\) et \(B = Y-Y'\). Quelle est la loi de \((A,B)\) ?
- Montrer que \(\mathbb{P}(B>0 \mid A = a) = \Phi(ra/\sqrt{2})\) où \(r = \rho/ \sqrt{1-\rho^2}\) et \(\Phi\) est la fonction de répartition de \(\mathscr{N}(0,1)\).
- En déduire que \[p = 2\int_{0}^{\infty}\frac{e^{-x^2/4}}{\sqrt{4\pi}} \Phi\left(\frac{rx}{\sqrt{2}}\right) dx.\] On note cette fonction \(I(r)\).
- Montrer que \(I'(r) = \frac{1}{\pi(1+r^2)}\) et en déduire que \(I(r) = 1/2+\arctan(r)/\pi\).
- Vérifier que \(\arctan(r) = \arcsin(\rho)\) et conclure.
La formule de Greiner donne donc le lien entre le coefficient de corrélation de Pearson et le coefficient de Kendall. Remarquons que dans la démonstration, on a implicitement calculé \(\mathbb{P}(A \text{ et } B \text{ ont le même signe})\) pour n’importe quel couple de variables aléatoires gaussiennes, ce qui n’est pas si évident.
Ici, on utilise la variance “non corrigée”, à savoir \(n^{-1}\sum_{i=1}^n (R_i - \bar{R})^2\).↩︎