$$ \newcommand{\bx}{\boldsymbol{x}} \newcommand{\bt}{\boldsymbol{\theta}} \newcommand{\dkl}{\mathrm{d}_{\mathrm{KL}}} \newcommand{\dtv}{\mathrm{d}_{\mathrm{TV}}} \newcommand{\emv}{\hat{\theta}_{\mathrm{emv}}} \newcommand{\ent}{\mathrm{Ent}} $$

Problèmes

Exercice 1 (Test du signe) On observe \(n\) couples aléatoires \((X_1,Y_1), (X_2,Y_2), \dots, (X_n,Y_n)\) indépendants mais pas nécessairement de même loi. On suppose de plus que les variables \(X_i\) et \(Y_i\) sont indépendantes et qu’elles ont une loi diffuse pour tout \(i\in\{1,\dots,n\}\). On considère le test des hypothèses \[ \begin{array}{@{}cl} H_0: &\text{$X_i=Y_i$ en loi pour tout $i$}, \\ H_1: & \text{il existe $i\not=j$ tels que $X_i\not=Y_i$ en loi}. \end{array} \]

  1. Montrer que \(P\left(X_i=Y_i\right)=0\) et en déduire que sous \(H_0\), on a \(P\left(X_i > Y_i\right) = \frac{1}{2}.\)
  2. On pose \(N = \sum_{i = 1}^n \mathbf{1}_{X_i>Y_i}.\) Quelle est la loi de \(N\) sous \(H_0\) ?
  3. En déduire que le test défini par la région de rejet \[\left\{\left|N-\frac{n}{2}\right| \geq c\right\}\] permet de construire un test de niveau inférieur à \(\alpha \in \,]0,1[\) de \(H_0\) contre \(H_1\) pour un choix \(c=c(\alpha) >0\) que l’on précisera. Parmi tous les choix possibles de \(c(\alpha)\), lequel préférer ?
  4. Les moyennes générales de la première et de la deuxième année de cinquième de \(12\) redoublants ont été relevées:
Élève 1 2 3 4 5 6 7 8 9 10 11 12
Année 1 12.0 9.5 13.0 10.0 8.5 11.0 7.8 14.0 5.0 12.0 12.0 8.6
Année 2 6.1 14.0 7.3 7.3 13.0 17.0 14.0 9.2 12.0 14.0 8.8 8.8

Le redoublement a-t-il une influence sur la moyenne générale ? 1

Exercice 2 (Test de gaussianté de Jarque-Bera) Soit \((X_1,\dots, X_n)\) un \(n\)-échantillon de loi inconnue \(F\) ayant au moins un moment d’ordre \(4\) et de moyenne nulle et de variance non nulle.

  1. On pose, pour \(k= 1, \dots, 4,\) \[T_n^{(k)} = \frac{\tfrac{1}{n}\sum_{i = 1}^n X_i^k}{\big(\tfrac{1}{n}\sum_{i = 1}^n X_i^2\big)^{k/2}}.\] Montrer que si \(F\) est une distribution gaussienne, on a la convergence en loi suivante : \[\frac{n}{15}\left (T_n^{(3)}\right )^2+\frac{n}{96}\left(T_n^{(4)}-3\right)^2 \to \chi^2_2\]
  2. En déduire un test de l’hypothèse nulle \(H_0:\) « \(F\) est gaussienne » contre l’alternative \(H_1:\) « \(F\) n’est pas gaussienne ».
  3. Le test est-il convergent ?

Exercice 3 (Test exact de Fisher) On reprend l’exercice Exercice 10, mais cette fois la table de contingence des observations est la suivante : 

riche pauvre
heureux 1 9
triste 11 3

On cherche à tester si l’argent et le bonheur sont deux dimensions indépendantes (hypothèse nulle).

  1. Un test du \(\chi_2\) d’indépendance est-il adapté cette fois ?
  2. On suppose que le total de chaque ligne et de chaque colonne est fixé. Montrer que sous l’hypothèse nulle, la vraisemblance d’une table de contingence de la forme \[t=\begin{bmatrix} a && b \\ c && d \end{bmatrix}\] est égale à \[p = \frac{\binom{a+b}{a}\binom{c+d}{c}}{\binom{24}{a+c}}. \] On a supposé que \(a+b = 10, c+d = 14, a+c=11, b+d=12\). Pour la table ci-dessus, on trouve \(p = 0.001346\).
  3. La notion de quantile a peu de sens pour une loi comme ci-dessus2. On remplace donc cette notion par la suivante : si \(p(t)\) est la probabilité, sous l’hypothèse nulle, d’observer une table \(t\), alors on ordonne toutes les tables possible \(t_1, \dotsc, t_2, \dots\) par probabilité croissante. On pose \(n_\alpha = \sup\{k : p(t_1) + \dotsb + p(t_k)<\alpha\}\). Montrer que le test dont la région de rejet est \(\{t_1, \dotsc, t_{n_\alpha}\}\) est un test de niveau de confiance au moins \(1-\alpha\) de l’hypothèse nulle.

  1. Le quantile d’ordre \(0.975\) d’une \(\mathscr{B}(12,0.5)\) est \(9\).↩︎

  2. Loi hypergéométrique. ↩︎