6  Test d’hypothèses

Si l’on essaie d’estimer le rendement μ d’un actif financier, on cherche implicitement à savoir si l’on va investir ou pas. Cette décision dépendra de notre estimation : pour faire simple, on peut considérer que si nous estimons que le rendement est positif (μ^>0), alors il faut investir. Sinon, on n’investira pas.

Les tests d’hypothèses visent à formaliser cela. Faire une hypothèse dans un modèle statistique (X,F,(Pθ)θΘ), c’est supposer que θ appartient à une certaine région de H0Θ. Les tests visent à construire des procédures pour tester une hypothèse nulle, que l’on notera H0, contre une hypothèse alternative, notée H1.

Dans le cadre ci-dessus, on peut se placer dans un modèle où les rendements sont N(μ,σ2). On veut tester l’hypothèse nulle H0:μ],0] contre l’hypothèse alternative H1:μ]0,+[.

Définition 6.1 Un test est un événement qui, s’il survient, nous incite à rejeter l’hypothèse nulle. Cet événement sera noté rejeter et son complémentaire sera noté accepter.

  • L’erreur de première espèce est la probabilité de rejeter l’hypothèse nulle à tort : α=supθH0Pθ(rejeter). Le niveau d’un test est 1α. C’est la probabilité d’accepter l’hypothèse nulle à raison.

  • L’erreur de seconde espèce est la probabilité de ne pas rejeter l’hypothèse nulle, à tort : β=supθH1Pθ(accepter). La puissance d’un test est 1β. C’est la probabilité de « détecter » l’hypothèse alternative à raison.

  • L’affinité d’un test est la somme des erreurs de première et seconde espèce. On parle aussi de l’erreur totale.

Par « événement », on veut bien dire « un élément de F », c’est-à-dire qui n’est déterminé que par les observations et pas par θ. Formellement on écrit souvent qu’un test est une statistique, disons T, à valeurs dans {0,1}. L’événement {T=1} est rejeter, l’événement {T=0} est accepter.

Un des grands objectifs de la statistique mathématique est de construire des familles de tests qui, pour un niveau de confiance 1α fixé, ont la plus grande puissance possible ; autrement dit, trouver un événement hautement improbable sous l’hypothèse nulle, et hautement probable sous l’hypothèse alternative.

Comme on verra dans les exemples, le rôle des deux hypothèses n’est pas interchangeable. Maximiser le niveau et la puissance ne reviennent pas au même. Le choix des hypothèses H0 et H1 n’est pas anodin : l’hypothèse H0 est une hypothèse que l’on cherche implicitement à réfuter.

  1. Si θH0 quel qu’il soit, les probablités pour qu’un certain événement rejeter sont infimes – disons, 1%.
  2. Si cet événement arrive, par contraposée, on est amenés à rejeter l’hypothèse selon laquelle θ est dans H0.

C’est pour cela que les tests sont une forme de logique statistique. Le raisonnement de base une contraposée : en logique, AB est équivalent à ¬B¬A. En statistiques, on pourrait écrire θH0accepter (avec grande probabilité), donc rejeterθH0 (probablement).

6.1 Exemples de tests gaussiens

On se place dans un modèle où X1,,Xn sont des gaussiennes N(μ,σ2). Nous avons déjà vu plusieurs fois que X¯nN(μ,σ2/n).

6.1.1 Construction du test

On cherche à réfuter l’hypothèse selon laquelle ces variables aléatoires sont centrées ; autrement dit, on posera H0={μ=0}. Sous cette hypothèse, nos variables aléatoires sont donc des variables N(0,σ2).

Supposons dans un premier temps que σ2 est connue. Sous H0, on a donc nX¯nσN(0,1) et par conséquent, P0(|X¯n|<z1ασ/n)=1α. Autrement dit, sous l’hypothèse μ=0, on devrait observer l’événement X¯n[±z1ασn] avec probabilité élevée 1α. Si cet événement n’est pas observé, il est alors très douteux que μ soit effectivement égal à zéro ! On pose donc rejeterα={|X¯n|>z1ασ/n}. Le niveau de ce test est bien 1α : nous l’avons construit pour cela.

Supposons maintenant que σ n’est pas connue. En l’estimant via σ^n, nous savons que (toujours sous l’hypothèse selon laquelle μ=0) nX¯nσ^nT(n1). On reproduit alors le raisonnement ci-dessus : comme P(|X¯n|<tn1,1ασ^n/n)=αtn1,1α est le quantile symétrique de T(n1), on voit que l’événement rejeterα={|X¯n|>tn1,1ασ^n/n} est bien un test de niveau 1α.

6.1.2 Calcul de la puissance et hypothèse alternative

Nous n’avons pas encore eu besoin de spécifier une hypothèse alternative, mais nous allons en avoir besoin pour calculer la puissance du test. Pour commencer, on va supposer que, si μ n’est pas nulle, alors elle ne peut être égale qu’à 1. Autrement dit, H1={1}. Ce genre d’hypothèse alternative ne peut évidemment avoir de pertinence qu’en fonction du problème réel sous-jacent !

Sous l’hypothèse alternative, donc, nous savons que X¯nN(1,σ2). La puissance du test est définie par 1ββ=P1(accepterα) c’est-à-dire β=P1(|X¯n|z1ασ/n)=P1(z1ασnX¯nz1ασn)=P1(z1ασn1X¯n1z1ασn1)=Φ(n/σ+z1α)Φ(n/σ+z1α).Φ(x)=P(N(0,1)x). Cette expression ne peut pas plus se simplifier, mais on peut quand même la borner par F(n/σ+z1α). Lorsque x est grand, nous avons vu (Théorème 5.1) que F(x)<ex2/|x|2π. Ainsi, l’erreur de première espèce est bornée par O(en/σ2/2/n). Cela tend extrêmement vite vers 0 ; en fait, dès que n est plus grand que 10 et σ=1, cette erreur est inférieure à 0.1%, donc dans ce cas le test aura une puissance supérieure à 99.9%.

Que se serait-il passé si notre hypothèse alternative n’avait pas été μ=1 mais μ=m pour n’importe quel m0 ? Dans ce cas, on aurait eu H1=R{0}. L’erreur de première espèce aurait alors été β=supm0βmβm=Pm(accepterα). On revoyant les calculs ci-dessus, on voit que βm=Φ(mn/σ+z1α)Φ(mn/σ+z1α). En particulier, limm0βm=Φ(z1α)Φ(z1α)=1α par continuité de Φ et par définition de z1α. Ainsi, 1β=α : pour cette seconde hypothèse alternative, la puissance de notre test… est extrêmement faible.

Cela vient du fait que notre hypothèse alternative contient des situations quasiment indiscernables de notre hypothèse nulle. Par exemple, il est quasiment impossible de distinguer μ=0 de μ=10100 par exemple. Cet exemple illustre la dissymétrie entre H0 et H1.

6.2 La notion de p-valeur

La construction d’un test dépend du niveau de risque α. Si le niveau de risque acceptable est de plus en petit, alors l’événement rejeterα devrait être de moins en moins probable. D’ailleurs, rejeter0= et accepter0=Ω : si l’on ne tolère aucun niveau de risque de première espèce, c’est qu’on ne veut pas rejeter l’hypothèse nulle.

Très souvent, si α<β, on a même rejeterαrejeterβ.

Définition 6.2 La p-valeur d’une famille croissante de tests est le plus petit niveau de risque qui nous amène à rejeter l’hypothèse nulle compte tenu des observations. Formellement, p=inf{α>0:rejeterα}=sup{α>0:accepterα}.

La p-valeur dépend des observations. C’est une observation cruciale : la p-valeur n’est pas une propriété intrinsèque d’un test. Sur deux ensembles différents d’observations, la p-valeur ne sera pas la même en général.

Calcul de p-valeur. Dans de nombreux tests, la construction d’un test se fonde sur une statistique, disons S, qui sous l’hypothèse nulle suit une loi particulière (par exemple, nX¯n/σ^nT(n1) sous l’hypothèse XiN(μ,σ2) avec μ=0 dans le cas d’un test de Student). Si le test est de la forme S<q1α, ce qui équivaut à F(S)<1α. La p-valeur est donnée par p=sup{α>0:S<q1α}=sup{α:F(S)<1α}=1F(S).

p-valeur d’un test dont la statistique d’intérêt est t.