Lemme de Neyman-Pearson

21

J'ai lu le lemme de Neyman – Pearson dans le livre Introduction to the Theory of Statistics de Mood, Graybill et Boes. Mais je n'ai pas compris le lemme.

Quelqu'un peut-il m'expliquer le lemme en termes clairs? Que dit-il?

Lemme de Neyman-Pearson: Soit X1,,Xn un échantillon aléatoire de f(x;θ) , où θ est l'une des deux valeurs connues θ0 et θ1 , et soit 0<α<1 fixe.

Soit k une constante positive et C un sous-ensemble de X qui satisfait:

(1)Pθ0[(X1,,Xn)C]=α
(2)λ=L(θ0;x1,,xn)L(θ1;x1,,xn)=L0L1kif (x1,,xn)C
andλk if (x1,,xn)C¯
Alors le testγ correspondant à la région critiqueC est un test le plus puissant de tailleα deH0:θ=θ0 versusH1:θ=θ1

Exprimé en mots, j'ai compris que les deux critères précisent

(1) P [rejetant l'hypothèse nulle | l'hypothèse nulle est vraie] = niveau de signification

(2) rejeter l'hypothèse nulle lorsque le rapport de vraisemblance , λ une constante positive k si (x1,,xn) tombent dans la région critique

Ensuite, le test est le test le plus puissant d'une hypothèse simple .

  • Pourquoi est-ce uniquement pour des hypothèses simples? Ne peut-il s'agir d'une hypothèse composite? Mon explication en mots est-elle correcte?
abc
la source

Réponses:

8

Je pense que vous avez bien compris le lemme.

Pourquoi ça ne marche pas pour une alternative composite? Comme vous pouvez le voir dans le rapport de vraisemblance, nous devons brancher le ou les paramètres de l'hypothèse alternative. Si l'alternative est composite, quel paramètre allez-vous brancher?

Sven
la source
2
Vous pouvez le faire fonctionner pour des alternatives composites si le rapport de vraisemblance est monotone.
Michael R. Chernick
11

J'ai récemment écrit une entrée dans un blog linkedin indiquant le lemme Neyman Pearson en termes simples et fournissant un exemple. J'ai trouvé l'exemple de l'ouverture des yeux dans le sens de fournir une intuition claire sur le lemme. Comme souvent en probabilité, il est basé sur une fonction de masse de probabilité discrète, il est donc plus facile à comprendre que lorsque vous travaillez avec des PDF. En outre, prenez en compte que je définis le rapport de vraisemblance comme la probabilité de l'hypothèse alternative par rapport à l'hypothèse nulle, contrairement à votre énoncé de lemme. L'explication est la même, mais plutôt que inférieure à ce qui est maintenant supérieure à. J'espère que ça aide ...

Ceux d'entre vous qui travaillent dans l'analyse de données et qui ont suivi des cours de statistiques ont peut-être appris à connaître le lemme de Neyman-Pearson (NP-lemme). Le message est simple, la démonstration non pas tant mais ce que j'ai toujours trouvé difficile était de me faire une idée de ce dont il s'agissait. En lisant un livre intitulé "Erreurs courantes dans les statistiques" par PIGood et JWHardin, je suis parvenu à une explication et à un exemple qui m'ont aidé à me faire une idée de ce lemme NP que j'avais toujours manqué.

Dans un langage mathématiquement pas parfait à 100%, ce que Neyman-Pearson nous dit, c'est que le test le plus puissant que l'on puisse trouver pour valider une hypothèse donnée à l'intérieur d'un certain niveau de signification est donné par une région de rejet faite par toutes les observations possibles provenant de ce test avec un rapport de vraisemblance supérieur à un certain seuil ... woahhh! Qui a dit que c'était facile!

Restez calme et déconstruisez le lemme:

  1. Hypothèse . En statistique, on travaille toujours avec deux hypothèses qu'un test statistique doit rejeter ou ne pas rejeter. Il y a l'hypothèse nulle, qui ne sera pas rejetée tant que les preuves contre elle ne seront pas suffisamment solides. Il y a aussi l'hypothèse alternative, celle que nous prendrons si le nul semble être faux.
  2. La puissance d'un test (aka sensibilité) nous indique quelle proportion de fois nous rejetterons correctement l'hypothèse nulle lorsqu'elle est fausse. Nous voulons des tests puissants, donc la plupart du temps nous rejetons l'hypothèse nulle, nous avons raison!
  3. Le niveau de signification d'un test (aka taux de faux positifs) nous indique quelle proportion de fois nous rejetterons à tort l'hypothèse nulle lorsqu'elle est vraie. Nous voulons un petit niveau de signification, donc la plupart du temps nous rejetons l'hypothèse nulle, nous ne nous trompons pas!
  4. Région de rejet , compte tenu de tous les résultats possibles du test, la région de rejet comprend les résultats qui nous feront rejeter l'hypothèse nulle au profit de son alternative.
  5. La vraisemblance est la probabilité d'avoir vu le résultat observé du test étant donné que l'hypothèse nulle (probabilité de l'hypothèse nulle) ou alternative (vraisemblance de l'hypothèse alternative) était vraie.
  6. Le rapport de vraisemblance est le rapport de la vraisemblance de l'hypothèse alternative divisé par la vraisemblance de l'hypothèse nulle. Si le résultat du test était très attendu si l'hypothèse nulle était vraie par rapport à l'autre, le rapport de vraisemblance devrait être faible.

Assez de définitions! (bien que si vous les regardez attentivement, vous vous rendrez compte qu'ils sont très perspicaces!). Passons à ce que Neyman et Pearson nous disent: si vous voulez avoir le meilleur test statistique possible du point de vue de sa puissance, définissez simplement la région de rejet en incluant les résultats des tests qui ont le rapport de probabilité le plus élevé, et continuez à ajouter plus de tests résultats jusqu'à ce que vous atteigniez une certaine valeur pour le nombre de fois que votre test rejettera l'hypothèse nulle lorsqu'elle est vraie (niveau de signification).

Voyons un exemple où, espérons-le, tout se réunira. L'exemple est basé sur le livre mentionné ci-dessus. Il est entièrement composé par moi-même et ne doit donc pas être considéré comme reflétant une réalité ou une opinion personnelle.

Imaginez que l'on veuille déterminer si quelqu'un est en faveur de la fixation de quotas d'immigration (hypothèse nulle) ou non (hypothèse alternative) en demandant ses sentiments face à l'Union européenne.

Imaginez que nous connaissions la distribution de probabilité réelle pour les deux types de personnes concernant la réponse à notre question:

enter image description here

Imaginons que nous sommes prêts à accepter une fausse erreur positive de 30%, c'est-à-dire 30% du temps, nous rejetterons l'hypothèse nulle et supposer que la personne interrogée est contre les quotas alors qu'elle est vraiment pour eux. Comment construirions-nous le test?

Selon Neyman et Pearson, nous prendrions d'abord le résultat avec le rapport de vraisemblance le plus élevé. C'est la réponse de "vraiment comme l'UE" avec un ratio de 3. Avec ce résultat, si nous supposons que quelqu'un est contre les quotas quand il / elle a dit qu'il "aime vraiment l'UE", 10% du temps nous assignerions pour les contingents par rapport à (signification). Cependant, nous ne classerions correctement les personnes contingentées que 30% du temps (pouvoir) car tous les membres de ce groupe n'ont pas la même opinion de l'UE.

Cela semble être un mauvais résultat en ce qui concerne le pouvoir. Cependant, le test ne fait pas beaucoup d'erreurs lors de la classification erronée des personnes sous quota (signification). Comme nous sommes plus flexibles en ce qui concerne la signification, recherchons le prochain résultat de test que nous devrions ajouter au sac de réponses qui rejettent l'hypothèse nulle (région de rejet).

La réponse suivante avec le rapport de probabilité le plus élevé est "comme l'UE". Si nous utilisons les réponses "vraiment" et "comme" l'UE comme résultats de test qui nous permettent de rejeter l'hypothèse nulle selon laquelle quelqu'un est pour les quotas, nous classerions à tort les quotas dans 30% du temps (10% de le "vraiment" et 20% du "j'aime") et nous classerions correctement par quotas les gens 65% du temps (30% du "vraiment" et 35% du "j'aime"). Dans le jargon statistique: notre signification est passée de 10% à 30% (mauvais!) Tandis que la puissance de notre test est passée de 30% à 65% (bon!).

C'est une situation que tous les tests statistiques ont. Il n'y a rien de tel qu'un déjeuner gratuit même en statistiques! Si vous voulez augmenter la puissance de votre test, vous le faites au détriment de l'augmentation du niveau de signification. Ou en termes plus simples: vous voulez mieux classer les bons, vous le ferez au détriment d'avoir plus de méchants qui ont l'air bien!

En gros, maintenant nous avons terminé! Nous avons créé le test le plus puissant possible avec les données fournies et un niveau de signification de 30% en utilisant des étiquettes «vraiment comme» et «comme» pour déterminer si quelqu'un est contre les quotas ... sommes-nous sûrs?

Que se serait-il passé si nous avions inclus dans la deuxième étape après le choix de la réponse «vraiment comme», la réponse «indifférent» au lieu de «comme»? La signification du test aurait été la même qu'auparavant à 30%: 10% pour les personnes de quota répondent "vraiment" comme et 20% pour les personnes de quota répondent "n'aiment pas". Les deux tests seraient tout aussi mauvais pour une classification erronée des individus sous quota. Cependant, le pouvoir empirerait! Avec le nouveau test, nous aurions une puissance de 50% au lieu des 65% que nous avions auparavant: 30% de "vraiment aime" et 20% de "indifférent". Avec le nouveau test, nous serions moins précis pour identifier les individus contre quota!

Qui a aidé ici? Rapport de vraisemblance Neyman-Personne idée remarquable! Prendre à chaque fois la réponse avec le rapport de vraisemblance le plus élevé nous a assuré que nous incluions dans le nouveau test autant de puissance que possible (grand numérateur) tout en gardant la signification sous contrôle (petit dénominateur)!

Ignasi
la source
Wow, juste voir tout dans ce tableau a aidé une tonne, et se référer à des parties de celui-ci a aidé une tonne. Merci!
Yatharth Agarwal
5

Le contexte

(Dans cette section, je vais simplement expliquer les tests d'hypothèse, taper une et deux erreurs, etc., dans mon propre style. Si vous êtes à l'aise avec ce matériel, passez à la section suivante)

Le lemme de Neyman-Pearson se pose dans le problème du test d'hypothèse simple . Nous avons deux distributions de probabilités différentes sur un espace commun Ω : P0 et P1 , appelées hypothèses nulle et alternative. Sur la base d'une seule observation ωΩ , nous devons trouver une estimation pour laquelle des deux distributions de probabilité est en vigueur. Un test est donc une fonction qui à chacun ω attribue une supposition soit "d'hypothèse nulle" soit "d'hypothèse alternative". Un test peut évidemment être identifié avec la région sur laquelle il retourne "alternatif", donc nous cherchons juste des sous-ensembles (événements) de l'espace de probabilité.

Typiquement dans les applications, l'hypothèse nulle correspond à une sorte de statu quo, tandis que l'hypothèse alternative est un nouveau phénomène que vous essayez de prouver ou d'infirmer est réel. Par exemple, vous testez peut-être quelqu'un pour ses pouvoirs psychiques. Vous exécutez le test standard avec les cartes avec des lignes ondulées ou non, et faites-les deviner un certain nombre de fois. L'hypothèse nulle est qu'ils n'obtiendront pas plus d'un droit sur cinq (puisqu'il y a cinq cartes), l'hypothèse alternative est qu'ils sont psychiques et peuvent obtenir plus de droits.

Ce que nous aimerions faire, c'est minimiser la probabilité de faire une erreur. Malheureusement, c'est une notion dénuée de sens. Il y a deux façons de faire une erreur. Soit l'hypothèse nulle est vraie, et vous échantillonnez un ω dans la région "alternative" de votre test, soit l'hypothèse alternative est vraie, et vous échantillonnez la région "nulle". Maintenant, si vous fixez une région A de l'espace de probabilité (un test), alors les nombres P0(A) et P1(Ac), les probabilités de commettre ces deux types d'erreurs sont complètement bien définies, mais comme vous n'avez aucune notion préalable de "probabilité que l'hypothèse nulle / alternative soit vraie", vous ne pouvez pas obtenir une "probabilité significative" de l'un ou l'autre type de erreur". C'est donc une situation assez typique en mathématiques où nous voulons le "meilleur" d'une classe d'objets, mais quand vous regardez de près, il n'y a pas de "meilleur". En fait, ce que nous essayons de faire est de minimiser P0(A) tout en maximisant P1(A) , qui sont clairement des objectifs opposés.

En gardant à l'esprit l'exemple du test des capacités psychiques, j'aime me référer au type d'erreur dans lequel le zéro est vrai, mais vous concluez l'alternative aussi vraie que "l' illusion " (vous croyez le psychique du gars mais il ne l'est pas), et le autre type d'erreur comme " inconscience ".

Le lemme

L'approche du lemme de Neyman-Pearson est la suivante: choisissons simplement une probabilité maximale d'illusion α que nous sommes prêts à tolérer, puis trouvons le test qui a une probabilité minimale d'oubli tout en satisfaisant cette limite supérieure. Le résultat est que ces tests ont toujours la forme d'un test de rapport de vraisemblance:

Proposition (lemme de Neyman-Pearson)

L0,L1α>0AΩP1(A)P0(A)α

A={ωΩL1(ω)L0(ω)K}

K>0 KP1(A)P1(B)BP0(B)P0(A)

KP0(A)=α

P1P0

P0P1RnP0(A)P0P1P0P1P0

Acheter un terrain

Le cœur du lemme est donc le suivant:

μΩfΩα>0Aμ(A)αAfdμ

{ωΩf(ω)K}
K>0fB

αffαμP0fP1P0L1/L0

ABBABBABBxAf(y)>f(x)yAxyAf1([K,+))K

Jack M
la source