$$ \newcommand{\bx}{\boldsymbol{x}} \newcommand{\bt}{\boldsymbol{\theta}} \newcommand{\dkl}{\mathrm{d}_{\mathrm{KL}}} \newcommand{\dtv}{\mathrm{d}_{\mathrm{TV}}} \newcommand{\emv}{\hat{\theta}_{\mathrm{emv}}} \newcommand{\ent}{\mathrm{Ent}} $$

Exercices

Questions

  1. Montrer que la convergence en loi vers une constante implique la convergence en probabilité.
  2. Montrer que, si un modèle statistique n’est pas identifiable, alors il ne peut exister aucun estimateur convergent.
  3. Trouver un couple de variables aléatoires \((X_n, Y_n)\) tel que \(X_n\) converge en loi et \(Y_n\) converge en loi, mais le couple ne converge pas en loi.
  4. On observe un échantillon de lois de Poisson de paramètre \(\lambda\), que l’on estime par la moyenne empirique. Calculer le risque quadratique de cet estimateur.
  5. Quelle est la loi d’une somme de lois de Bernoulli indépendantes ? L’écart-type ?
  6. Dans la delta-méthode, on demande à ce que la dérivée de \(g\) au point limite soit non nulle. Pourquoi ?
  7. On se place dans le cadre de la delta-méthode, avec une suite \(X_n\) telle que \(\sqrt{n}(X_n - \alpha)\) converge en loi vers \(N(0,1)\). Si on a une fonction \(g\) telle que \(g'(\alpha)=0\) mais \(g''(\alpha)\neq 0\), comment renormaliser \(X_n - \alpha\) pour qu’on ait encore la normalité asymptotique ?

Exercices

Exercice 1 (Variance empirique) On se donne \(Y_1, \dots, Y_n\), i.i.d de moyenne \(\mu\) et variance \(\sigma^2\).

  1. On suppose \(\mu\) connu. Donner un estimateur non biaisé de \(\sigma^2\).
  2. On suppose \(\mu\) inconnu. Calculer l’espérance de \(\sum_{i=1}^n (Y_i - \bar{Y}_n)^2\). En déduire un estimateur non biaisé de \(\sigma^2\).

Exercice 2 (Estimation de masse) Au cours de la seconde guerre mondiale, l’armée alliée notait les numéros de série \(X_1, \dots, X_n\) de tous les tanks nazis capturés ou détruits, afin d’obtenir un estimateur du nombre total \(N\) de tanks produits.

  1. Proposer un modèle pour le tirage de \(X_1, \dots, X_n\).
  2. Calculer l’espérance de \(\bar X_n\). En déduire un estimateur non biaisé de \(N\). Indication: la loi de \(n\) tirages sans remise est échangeable.
  3. Étudier la loi de \(X_{(n)}\) et en déduire un estimateur non biaisé de \(N\).
  4. Proposer deux intervalles de confiance de niveau \(1-\alpha\) de la forme \([aS, bS]\) avec \(a, b\in\mathbb{R}\) et \(S\) une statistique. On pourra utiliser le fait que l’inégalité de Hoeffding s’applique également aux tirages sans remise.

Selon Ruggles et Broodie (1947, JASA), la méthode statistique a fourni comme estimation une production moyenne de 246 tanks/mois entre juin 1940 et septembre 1942. Des méthodes d’espionnage traditionnelles donnaient une estimation de 1400 tanks/mois. Les chiffres officiels du ministère nazi des Armements ont montré après la guerre que la production moyenne était de 245 tanks/mois.

Exercice 3 (Lois uniformes (1)) On considère \((X_1, \dots, X_n)\) un échantillon de loi uniforme sur \(]\theta, \theta+1[\).

  1. Donner la densité de la loi de la variable \(R_n=X_{(n)} -X_{(1)}\), où \(X_{(1)}=\min(X_1, \dots, X_n)\) et \(X_{(n)}=\max(X_1, \dots, X_n)\).
  2. Étudier les différents modes de convergence de \(R_n\) quand \(n\to\infty\).
  3. Étudier le comportement en loi de \(n(1-R_n)\) quand \(n\to\infty\).

Exercice 4 (Lois uniformes (2)) Soit \(X_1,\dots,X_n\) un échantillon de loi \(\mathscr{U}([0,\theta])\), avec \(\theta >0\). On veut estimer \(\theta\).

  1. Déterminer un estimateur de \(\theta\) à partir de \(\bar{X}_n\).
  2. On considère l’estimateur \(X_{(n)}= {\max}_{1\leq i \leq n}X_i\). Déterminer les propriétés asymotptiques de ces estimateurs.
  3. Comparer les performances des deux estimateurs.

Exercice 5 (Lois Gamma) La loi Gamma \(\Gamma(\alpha, \beta)\) de paramètres \(\alpha, \beta>0\) a pour densité \[ x\mapsto \frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}\exp(-\beta x), \quad x>0.\] On se donne un échantillon \((X_1,\dots,X_n)\) de loi \(\Gamma(\alpha, \beta)\) et on chercche à estimer les paramètres.

  1. On suppose le paramètre \(\beta\) connu. Proposer un estimateur de \(\alpha\) par la méthode des moments.
  2. On suppose à présent que les deux paramètres \(\alpha, \beta\) sont inconnus. Proposer un estimateur de \((\alpha,\beta)\) par la méthode des moments.

Exercice 6 (Lois de Gumbel) La loi de Gumbel (centrale) de paramètre \(\beta\) a pour fonction de répartition \(F(x)= e^{-e^{-x/\beta}}\). On observe un échantillon de lois de Gumbel et l’on cherche à estimer \(\beta\).

  1. Calculer la densité des lois de Gumbel, ainsi que leur moyenne et variance [indice : \(0.57721…\)]
  2. En déduire un estimateur convergent dont on calculera le risque quadratique et les propriétés asymptotiques.

Exercice 7 (Lois de Yule-Simon) Une variable aléatoire \(X\) suit la loi de Yule-Simon de paramètre \(\rho>0\) lorsque \(\mathbb{P}(X = n) = \rho B(n, 1+\rho)\), où \(n\geqslant 1\) et \(B\) est la fonction beta.

  1. Montrer que si \(\rho>1\), alors \(\mathbb{E}[X] = \rho/(\rho-1)\).
  2. Trouver un estimateur de \(\rho\) et donner ses propriétés.

Exercice 8 (Estimation des espèces manquantes de Fisher-Corbet (examen 24)) Un naturaliste capture des papillons dans une forêt lointaine. Il effectue deux collectes de même durée. Soit \(S\) le nombre total d’espèces distinctes dans cette forêt ; on note \(X^1_k\) (respectivement \(X^2_k\)) le nombre de spécimens de l’espèce \(k\) qui ont été capturées pendant la première collecte (respectivement, la seconde). On fait l’hypothèse selon laquelle les \(X^i_k\) sont des variables aléatoires indépendantes avec \(X^i_k \sim \mathrm{Poisson}(\theta_k)\)\(\theta_k\) est un paramètre positif qui représente la rareté de l’espèce \(k\).

  1. On pose \(N_r\) le nombre d’espèces dont exactement \(r\) spécimens ont été capturés . Par exemple, \(N_3\) est le nombre d’espèces dont on a capturé 3 spécimens et \(N_0\) est le nombre d’espèces qu’on n’a pas capturées.
    1. Calculer l’espérance et la variance des \(N_r\).
    2. Quelle est la probabilité qu’aucun spécimen de l’espèce \(k\) n’ait été capturé pendant la première collecte, mais qu’au moins un ait été capturé pendant la seconde ?
  2. En utilisant le développement \(e^{x} - 1 = \sum_{t=1}^\infty x^t / t!\), montrer que le nombre d’espèces \(N\) qui n’ont pas été capturées pendant la première collecte mais qui ont été capturées pendant la seconde collecte vérifie \[ \mathbb{E}[N] = \sum_{t=0}^\infty (-1)^t \sum_{k=1}^S e^{-\theta_k}\frac{\theta_k^{t+1}}{(t+1)!}.\]
  3. En déduire que \[\hat{N} := N_1 - N_2 + N_3 -N_4 + N_5 - \dotsb \] est un estimateur sans biais de \(N\) .
  4. Expliquer pourquoi ce résultat est étonnant. Quelles pourraient être les limitations de cet estimateur ?

Concours

J’ai choisi un polynôme \(p \in \mathbb{R}[X]\). Puis, j’ai tiré aléatoirement \(n=1000\) réalisations iid d’une loi \(N(0,1)\), appelées \(\varepsilon_i\), et pour chacune j’ai calculé \(x_i = p(\varepsilon_i)\). Ces \(\{x_i\}\) sont les observations que je vous donne dans ce fichier.

Votre objectif est de deviner le mieux possible le polynôme \(p\), c’est-à-dire son degré et ses coefficients.

Règles : 

  • la solution doit m’être envoyée par mail avant dimanche 20 janvier, 23h59.
  • l’objet du mail doit être la suite des coefficients que vous avez estimés. Par exemple, si vous pensez que le polynôme est \(p(x) = 1 + x^2 - x^5 + 3x^7\), vous écrivez 1,0,1,0,0,-1,0,3 dans l’objet du mail, sans rien d’autre.
  • vous devez me montrer que vous avez compris ce que vous faites et l’exprimer dans le cadre du cours.
  • envoyez moi le code ou les calculs que vous avez faits.

Ceux qui auront correctement estimé le degré et/ou le polynôme auront comme récompense des M&Ms.