Exercices

Questions

Quelles sont les erreurs du test consistant à toujours accepter l’hypothèse nulle ?
Quelles sont les erreurs du test consistant à toujours refuser l’hypothèse nulle ?
Montrer que la distance en variation totale entre deux mesures de densités \(p,q\) peut aussi s’écrire \(\int(p/q-1)_+ \mathrm{d}p\).
Montrer que si \(\mathrm{d}_{\mathrm{KL}}(P_n \mid Q) \to 0\), alors \(P_n\) converge en loi vers \(Q\).
Calculer la distance en variation totale entre deux lois de Bernoulli de paramètres respectifs \(p\) et \(q\).
Calculer la distance en variation totale entre une loi \(\mathrm{Bin}(n,p)\) et une loi \(N(\mu,\sigma^2)\).
Soient \(P,Q\) deux mesures distinctes. Montrer que \(\dtv(P^{\otimes n}, Q^{\otimes n})\) tend vers 1.
Soient \(P,Q\) deux mesures. Montrer que \(\dkl(P^{\otimes n} \mid Q^{\otimes n}) = n \dkl(P \mid Q)\).

Tests élémentaires

Pour tous les cas suivants, il faut savoir réaliser rapidement un test puissant, voire même optimal au sens qu’il vous plaira.

Tester \(\mu = \mu_0\) contre \(\mu = \mu_1\) dans un échantillon \(N(\mu, \sigma^2)\) lorsque \(\sigma\) est connu.
Même question lorsque \(\sigma\) est inconnu (attention : dans ce cas les hypothèses ne sont pas simples mais composites. Il faut utiliser le rapport des maximums de vraisemblance, que l’on verra plus tard).
Soient \(X_1, \dotsc, X_n\) un échantillon iid \(N(\mu_1,\sigma_1^2)\) et \(Y_1, \dotsc, Y_m\) (\(m\) et \(n\) ne sont pas forcément égaux) un échantillon iid de loi \(N(\mu_2,\sigma_2^2)\). Tester \(\sigma_1 = \sigma_2\) lorsque \(\mu_1\) et \(\mu_2\) sont connues.
Même question lorsque \(\mu_1\) et \(\mu_2\) ne sont pas connues (même remarque que précédemment).
Donner la forme d’un test sur la valeur de \(p\) pour une réalisation d’une loi \(\mathrm{Bin}(n,p)\) et calculer son niveau asymptotique quand \(n\to\infty\).
Donner la forme d’un test sur la valeur de \(\lambda\) dans un échantillon de \(n\) variables aléatoires de Poisson de paramètre \(\lambda\).

Exercices

Exercice 1 Soient \(X_1, \dotsc, X_n\) des variables indépendantes de loi \(\chi_2(p)\). On cherche à tester l’hypothèse nulle \(p=1\) contre l’hypothèse alternative \(p=2\).

Écrire la forme de la région de rejet des tests de rapport de vraisemblance.
Essayer de calculer le niveau de ce test ; si ce n’est pas possible, essayer de le borner.

Exercice 2 Soient \(X_1, \dotsc, X_n\) des variables indépendantes de loi \(N(0,\sigma^2)\). Proposer un test de niveau \(\alpha\) de l’hypothèse \(\sigma^2=1\) contre l’hypothèse \(\sigma^2 = 1+\varepsilon\), et estimer sa puissance. Comment varie-t-elle en fonction de \(n\) et de \(\varepsilon\) ?

Exercice 3 Soient \(X_1, \dotsc, X_n\) des variables indépendantes de même loi \(P\). On cherche à tester l’hypothèse nulle \(P = N(0,1)\) contre l’hypothèse alternative \(P = \mathscr{T}(n)\).

Donner le test optimal au sens de l’affinité.
Donner un autre test, de niveau \(1-\alpha\), et calculer sa puissance.
Comparer ces deux tests, en particulier dans le régime où \(n\) est grand.

Exercice 4 Montrer que le nombre de lancers nécessaire pour distinguer une pièce équilibrée \((p=1/2)\) d’une pièce légèrement déséquilibrée (\(p_1 = 1/2 + \varepsilon\)) est d’ordre \(1/\varepsilon^2\).

Exercice 5 On note \(p\) la probabilité qu’un enfant né vivant soit un garçon. On suppose que les enfants sont de sexe indépendants, et que cette probabilité est la même pour toutes les grossesses.

Il y a eu en France métropolitaine en 2015 \(n=760\,421\) naissances. , dont \(389\,181\) garçons. Tester l’hypothèse \(p=\frac12\) contre l’alternative pertinente.
En 1920, il y a eu \(838\,137\) naissances dont \(432\,044\) garçons. Tester l’hypothèse \(p_{2015}=p_{1920}\).

Exercice 6 Soient \(X_1, \dotsc, X_n\) i.i.d de loi \(N(\theta,1)\), où \(\theta\) est un paramètre réel.

Donner un intervalle de confiance pour \(\theta\) au niveau de risque \(5\%\) de la forme \([\hat{\theta}_n, +\infty[\).
En déduire un test de niveau \(5\%\) pour les hypothèses \(H_0: \theta = 0\) et \(H_1: \theta >0\).
Donner le modèle de l’expérience statistique. Donner l’expression du test de rapport de vraisemblance \(T\) pour les hypothèses \(H_0: \theta =0\) et \(H_1: \theta = \mu\), où \(\mu >0\). Quel test retrouve-t-on?
Construire le test de rapport de vraisemblance au niveau \(5\%\) pour les hypothèses \(H_0: \theta = 0\) et \(H_1: \theta >0\).

Exercice 7 (Test sur des lois uniformes) On se donne \(X_1, \dots, X_n\) iid de loi \(\mathscr{U}(0,\theta)\), et on note \(M_n = \max_{j=1, \dots, n} X_i\).

Écrire la fonction de répartition de \(M_n\), puis en déduire un test \(T\) de niveau \(1-\alpha\) pour les hypothèses \(H_0: \theta = 1\) contre \(H_1: \theta < 1\).
Donner le test du rapport de vraisemblance pour pour les hypothèses \(H_0: \theta = 1\) contre \(H_1: \theta = \theta_0\), où \(\theta_0<1\). Calculer sa puissance.
On cherche à tester \(H_0: \theta = 1\) contre \(H_1: \theta < 1\). Comme la seconde hypothèse est composite, on ne peut pas directement appliquer le test du rapport de vraisemblance ; à la place, on utilise un test du maximum de vraisemblance, qui est de la forme \[ \frac{\sup_{\theta < 1}\rho_\theta(x_1, \dotsc, x_n)}{\rho_1(x_1, \dotsc, x_n)} > z\] où \(\rho_\theta\) est la densité d’un échantillon iid de lois \(\mathscr{U}[0,\theta]\). Calculer le supremum dans cette expression, et en déduire la région de rejet.
Montrer que la puissance de \(T\) vaut \(\alpha\).
En utilisant la même technique, construire le test du rapport de maximum de vraisemblance pour pour les hypothèses \(H_0: \theta = 1\) contre \(H_1: \theta>1\), noté \(T'\), au niveau \(1-\alpha\). Calculer sa puissance.
Donner un test de niveau \(1-\alpha\) pour \(H_0: \theta = 1\) contre \(H_1: \theta>1\), plus puissant que \(T'\) pour n’importe quel \(\theta >1\).

Exercice 8 Une réalisation d’une variable aléatoire \(X \sim \mathrm{Bin}(20,p)\) donne \(X = 8\).

Proposer un test du rapport de vraisemblance de l’hypothèse nulle \(p=p_0=1/2\) contre l’hypothèse alternative \(p=p_1=1/3\). Donner l’expression de la \(p\)-valeur du test.
On tire des variables aléatoires iid de Bernoulli jusqu’à obtenir 8 succès. Écrire la loi de probabilité du nombre de lancers \(N\).
Il se trouve que le nombre de lancers nécessaires pour cela était \(N=20\). Proposer un test du rapport de vraisemblance de l’hypothèse nulle \(p=p_0=1/2\) contre l’hypothèse alternative \(p=p_1=1/3\). Donner l’expression de la \(p\)-valeur du test.
Pourquoi les deux \(p\)-valeurs sont-elles différentes, alors que les deux tests sont identiques ?

Exercice 9 (Test d’adéquation du \(\chi_2\)) On lance \(60\) fois un dé et on obtient les résultats suivants :

Face \(k\)	1	2	3	4	5	6
Effectif \(N_k\)	10	13	8	12	9	8

Le dé est-il bien équilibré ? À titre indicatif, le quantile d’une loi \(\chi^2(5)\) d’ordre \(95\%\) est \(11.07\).

Exercice 10 (Test d’indépendance du \(\chi_2\)) On cherche à savoir si les variables « être riche » et « être heureux » sont indépendantes. On interroge un grand échantillon de personnes à ce sujet, et l’on récolte les données suivantes :

	riche	pauvre
heureux	344	700
triste	257	705

L’argent fait-il le bonheur ?

Exercice 11 (Tests multiples (examen 24)) Soient \(x_1, \dotsc, x_n\) des variables aléatoires indépendantes gaussiennes dans \(\mathbb{R}^d\), de lois respectives \(N(\mu_i, \sigma_i^2 I_d)\), où \(\mu_i \in \mathbb{R}^d\) et \(\sigma_i^2 > 0\) sont inconnus. On note \(H_{0,i}\) l’hypothèse « \(\mu_i = 0\) ».

Construire un test de \(H_{0,i}\) de niveau de confiance \(1-\alpha\). On le notera \(T_{\alpha}^{(i)}\).
On effectue chacun des tests \(T^{(i)}_\alpha\), indépendamment les uns des autres. Si tous les \(\mu_i\) sont simultanément nuls, quelle est la probabilité qu’aucune des hypothèses \(H_{0,i}\) ne soit rejetée ? Quelle est la limite de cette probabilité lorsque \(n \to \infty\) ?
Dorénavant, on notera \(H_0\) l’hypothèse selon laquelle tous les \(\mu_i\) sont nuls. Quel niveau de confiance \(1-\delta\) faudrait-il choisir pour que, sous \(H_0\), la probabilité de l’événement « aucun des tests \(T^{(i)}_{\delta}\) ne rejette \(H_{0,i}\) » soit égale à \(1-\alpha\) ?
On s’intéresse maintenant à la propriété suivante : « sous \(H_0\), la probabilité de l’événement “plus de \(k\%\) des tests \(T^{(i)}_\delta\) ont rejetés \(H_{0,i}\)” est inférieure à \(\alpha\) ».
1. Sous \(H_0\), quelle est la loi du nombre d’hypothèses \(H_{0,i}\) rejetées par \(T^{(i)}_{\delta}\) ?
2. Trouver un \(\delta\) (dépendant de \(k,\alpha,n\)) tel que la famille de tests \(T_\delta^{(i)}\) vérifie la propriété ci-dessus. (indice : Wassily).

Travail pratique[^1]

Faites un test du chi-deux (indépendance ou adéquation) de votre choix. Vous devez vous-même trouver une question qui vous intéresse. Cela peut être n’importe quoi :

vérifier la loi de Benford dans je ne sais quel document ou site ou journal ;
se demander si le département de région d’une personne et ses opinions politiques sont indépendantes ;
tester une corrélation simple entre la météo à NY et la positivé du rendement du S&P500 (« il pleut à Wall Street » vs « les marchés sont dans le vert ») ;
se demander si les naissances en France sont uniformément réparties sur les 365 jours de l’année ;
tester si ChatGPT ou je ne sais quel LLM est capable de générer des échantillons de lois précises (loi uniforme, loi de Poisson, etc). Je serai curieux d’avoir le résultat.
Etc.

Trouvez donc une question intéressante, trouvez des données pertinentes (c’est peut-être la partie la moins simple), formulez la question sous la forme d’un test statistique, et réalisez le test avec votre langage de programmation favori (qui n’est pas R, soyez de bon goût). Écrivez quelques lignes pour me dire où vous avez eu les données et comment vous vous adaptez au formalisme du cours. Une page max (snippet de code compris) devrait suffire.

Pas besoin d’aller chercher très loin, un jeu de données simple suffit ! Amusez-vous bien.

Vous devez m’envoyer ça avant le 9 février 23h59, avec pour objet du mail votre nom suivi de “chi-deux”.