$$ \newcommand{\bx}{\boldsymbol{x}} \newcommand{\bt}{\boldsymbol{\theta}} \newcommand{\bmu}{\boldsymbol{\mu}} \newcommand{\dkl}{\mathrm{d}_{\mathrm{KL}}} \newcommand{\dtv}{\mathrm{d}_{\mathrm{TV}}} \newcommand{\emv}{\hat{\theta}_{\mathrm{emv}}} \newcommand{\ent}{\mathrm{Ent}} \newcommand{\tr}{\mathrm{tr}} $$

Et après ?

Séries temporelles

Dans tout ce cours, on a supposé que les observations étaient indépendantes et identiquement distribuées. En pratique, c’est rarement le cas : les données sont souvent indexées par le temps, et l’observation d’aujourd’hui dépend de celle d’hier. Les séries temporelles étudient exactement cette situation. On modélise les observations comme un processus \((X_t)_{t\in\mathbb{Z}}\) dont les valeurs successives sont corrélées, et l’on cherche à estimer la structure de cette dépendance — typiquement, l’autocorrélation ou la densité spectrale. Les modèles les plus classiques sont les processus ARMA, qui sont des combinaisons linéaires de bruits passés et d’observations passées ; leur théorie repose sur la notion de stationnarité, qui remplace l’hypothèse iid. Le problème central est la prévision : à partir de l’historique \(X_1, \dotsc, X_n\), construire un estimateur de \(X_{n+1}\). Les résultats fondamentaux sont le théorème ergodique (qui remplace la loi des grands nombres), le théorème de Wold (qui dit que tout processus stationnaire se décompose en une partie déterministe et une partie purement aléatoire), et le filtre de Kalman pour la prévision optimale dans les modèles linéaires gaussiens.

Statistiques en grande dimension

Le cadre classique de ce cours suppose que la dimension \(d\) du paramètre est fixée tandis que \(n\to\infty\). En grande dimension, les deux grandeurs \(n\) et \(d\) tendent vers l’infini simultanément, et leur rapport \(d/n\) joue un rôle crucial. Ce régime est celui des données modernes : on a souvent autant — voire plus — de variables explicatives que d’observations. Le problème principal est que les outils classiques, comme l’EMV ou les moindres carrés ordinaires, cessent de fonctionner correctement : par exemple, la matrice \(X^\top X / n\) ne converge plus vers une matrice fixe, et l’estimateur des MCO n’est même plus défini lorsque \(d>n\). Pour s’en sortir, on introduit des hypothèses de parcimonie : on suppose que seule une petite fraction des coefficients est non nulle. Les méthodes phares de ce domaine sont le LASSO (qui ajoute une pénalité \(\ell_1\) à la vraisemblance), la régression ridge (pénalité \(\ell_2\)), et le compressed sensing (qui montre qu’un signal parcimonieux peut être reconstruit à partir de très peu de mesures). Du côté des matrices aléatoires, la loi de Marchenko-Pastur remplace la loi des grands nombres pour les valeurs propres de \(X^\top X/n\), et permet de comprendre ce qui se passe pour la PCA en grande dimension.

Statistiques non-paramétriques

Dans les modèles paramétriques, on suppose que la loi des observations appartient à une famille indexée par un paramètre de dimension finie. Les statistiques non-paramétriques lèvent cette hypothèse : on ne suppose presque rien sur la loi \(P\) des observations, si ce n’est éventuellement une certaine régularité (par exemple, que la densité est lipschitzienne). Le problème est d’estimer des objets fonctionnels — la densité, la fonction de répartition, ou une fonction de régression — sans passer par un modèle exponentiel. Les outils principaux sont les estimateurs à noyaux (qui généralisent les histogrammes en lissant les données), les estimateurs par ondelettes, et les méthodes de plus proches voisins. La difficulté majeure est la malédiction de la dimension : en dimension \(d\), la quantité de données nécessaire pour estimer une densité avec une précision donnée croît exponentiellement en \(d\). Les résultats fondamentaux sont les vitesses minimax d’estimation (qui disent qu’aucun estimateur ne peut faire mieux qu’une certaine vitesse, et exhibent un estimateur qui l’atteint), et la théorie de la complexité statistique via la dimension de Vapnik-Chervonenkis.

Machine learning

L’apprentissage automatique part d’un problème un peu différent : on dispose de couples \((x_i, y_i)\) et l’on cherche à construire une fonction \(\hat{f}\) qui prédit \(y\) à partir de \(x\), sans nécessairement supposer que \(y = f(x) + \varepsilon\) pour une certaine \(f\) linéaire. Le cadre est celui de l’apprentissage supervisé : on minimise un risque empirique sur un ensemble d’entraînement, et l’on espère que la fonction obtenue généralisera bien à de nouvelles données. Lorsque \(y\) est un réel, on parle de régression ; lorsque \(y\) prend un nombre fini de valeurs, on parle de classification. Les méthodes classiques incluent la régression logistique, les arbres de décision, les machines à vecteurs de support (SVM), et les méthodes d’ensemble comme le boosting et les forêts aléatoires. Le problème central est celui du compromis biais-variance : un modèle trop simple ne capte pas la structure des données, tandis qu’un modèle trop riche s’ajuste au bruit. Les résultats théoriques fondamentaux sont les bornes de généralisation, qui relient le risque réel d’un estimateur à son risque empirique via des mesures de complexité du modèle.

Deep learning et réseaux de neurones

Les réseaux de neurones sont des fonctions paramétriques de la forme \(x \mapsto \sigma(W_L \sigma(W_{L-1}\dotsb \sigma(W_1 x)))\) où les \(W_i\) sont des matrices et \(\sigma\) une non-linéarité appliquée composante par composante. Le nombre de paramètres est gigantesque — souvent des millions, voire des milliards — et la fonction de perte n’est plus convexe : on perd donc toutes les garanties d’optimalité de l’EMV classique. L’apprentissage se fait par des variantes de la descente de gradient stochastique, et repose sur l’algorithme de rétropropagation pour calculer efficacement les gradients. Le théorème d’approximation universelle dit que les réseaux de neurones à une couche cachée peuvent approcher n’importe quelle fonction continue, mais ce résultat est essentiellement non constructif. Le mystère principal du deep learning est qu’il fonctionne malgré la non-convexité et le sur-paramétrage : des modèles ayant bien plus de paramètres que de données généralisent quand même bien, ce qui contredit l’intuition classique du compromis biais-variance. La compréhension théorique de ce phénomène est l’un des grands problèmes ouverts des statistiques et de l’informatique.