Test d'hypothèse de distribution - quel est l'intérêt de le faire si vous ne pouvez pas «accepter» votre hypothèse nulle?

26

Divers tests d'hypothèse, tels que le GOF, Kolmogorov-Smirnov, Anderson-Darling, etc., suivent ce format de base:χ2

H0 : Les données suivent la distribution donnée.

H1 : Les données ne suivent pas la distribution donnée.

Typiquement, on évalue l'affirmation selon laquelle certaines données données suivent une distribution donnée, et si l'on rejette , les données ne correspondent pas bien à la distribution donnée à un certain niveau . αH0α

Mais que se passe-t-il si nous ne rejetons pas ? On m'a toujours enseigné qu'on ne peut pas "accepter" , donc en gros, nous ne prouvons pas de rejeter . Autrement dit, il n'y a aucune preuve que nous rejetons que les données suivent la distribution donnée.H 0 H 0H0H0H0

Ainsi, ma question est, quel est l'intérêt d'effectuer de tels tests si nous ne pouvons pas conclure si les données suivent ou non une distribution donnée?

Clarinettiste
la source
1
Il est très tentant de ne répondre que "quel est l'intérêt de tester [en général] si l'on ne peut accepter l'hypothèse nulle?". Dans tous les cas, les tests statistiques ne sont pas la seule base de décision. Nous prenons plutôt une décision et utilisons des données pour quantifier le risque / coût des erreurs de type I / II. Si nous résumions simplement la qualité ou le degré d'ajustement avec des graphiques utiles, des QQplots et des statistiques prédictives, nous serions correctement informés du risque d '«accepter le nul».
AdamO
@AdamO Lorsque j'ai posé cette question il y a trois ans, je venais de terminer un diplôme de premier cycle en mathématiques (accent sur les statistiques). Maintenant que je suis à mi-chemin d'un programme de statistiques sur la SP et que j'ai fait un travail professionnel, je le comprends maintenant. Il est vraiment regrettable que les statistiques soient enseignées dans de nombreux programmes de premier cycle, mais je m'égare.
Clarinettiste le

Réponses:

37

D'une manière générale (pas seulement pour la qualité des tests d'ajustement, mais dans de nombreuses autres situations), vous ne pouvez tout simplement pas conclure que la valeur nulle est vraie, car il existe des alternatives qui ne peuvent pas être distinguées de la valeur nulle à n'importe quelle taille d'échantillon.

Voici deux distributions, une normale standard (ligne continue verte) et une apparence similaire (90% normale normale et 10% bêta standardisée (2,2), marquées d'un trait pointillé rouge):

entrez la description de l'image ici

Le rouge n'est pas normal. Par exemple, , nous avons peu de chances de repérer la différence, nous ne pouvons donc pas affirmer que les données sont tirées d'une distribution normale - et si c'était à partir d'une distribution non normale comme la rouge à la place?n=100

De plus petites fractions de bêta normalisées avec des paramètres égaux mais plus grands seraient beaucoup plus difficiles à voir comme différentes d'une normale.

Mais étant donné que les données réelles sont presque jamais d' une certaine distribution simple, si nous avions un oracle parfait (ou efficacement infinies taille des échantillons), nous essentiellement toujours rejeter l'hypothèse que les données étaient d' une certaine forme distributive simple.

Comme l'a dit George Box , " Tous les modèles sont faux, mais certains sont utiles. "

Pensez, par exemple, à tester la normalité. Il se peut que les données proviennent en fait de quelque chose de proche de la normale, mais seront-elles jamais exactement normales? Ils ne le sont probablement jamais.

Au lieu de cela, le mieux que vous puissiez espérer avec cette forme de test est la situation que vous décrivez. (Voir, par exemple, l'article Les tests de normalité sont-ils essentiellement inutiles?, Mais il y a un certain nombre d'autres articles ici qui soulèvent des points connexes)

F

Considérez à nouveau l'image ci-dessus. La distribution rouge n'est pas normale, et avec un échantillon vraiment grand, nous pourrions rejeter un test de normalité basé sur un échantillon de celui-ci ... mais à une taille d'échantillon beaucoup plus petite, des régressions et deux échantillons t-tests (et de nombreux autres tests en outre) se comportera si bien qu’il sera inutile de s’inquiéter même un peu de cette non-normalité.

μ=μ0

Vous pourriez être en mesure de spécifier certaines formes particulières de déviation et de regarder quelque chose comme le test d'équivalence, mais c'est un peu délicat avec l'ajustement car il y a tellement de façons pour une distribution d'être proche mais différente d'une hypothétique, et différente les formes de différence peuvent avoir des impacts différents sur l'analyse. Si l'alternative est une famille plus large qui inclut le nul comme cas spécial, le test d'équivalence a plus de sens (test exponentiel par rapport au gamma, par exemple) - et en effet, l'approche du "test bilatéral" est appliquée, et cela pourrait être un moyen de formaliser "assez près" (ou ce serait le cas si le modèle gamma était vrai, mais en fait, il serait lui-même pratiquement certain d'être rejeté par un test ordinaire de qualité de l'ajustement,

La qualité des tests d'ajustement (et souvent plus largement, les tests d'hypothèse) ne convient vraiment qu'à un éventail assez limité de situations. La question à laquelle les gens veulent habituellement répondre n'est pas si précise, mais un peu plus vague et plus difficile à répondre - mais comme l'a dit John Tukey, "Il vaut mieux une réponse approximative à la bonne question, qui est souvent vague, qu'une réponse exacte à la mauvaise question, qui peut toujours être précise. "

Des approches raisonnables pour répondre à la question la plus vague peuvent inclure des enquêtes de simulation et de rééchantillonnage pour évaluer la sensibilité de l'analyse souhaitée à l'hypothèse que vous envisagez, par rapport à d'autres situations qui sont également raisonnablement cohérentes avec les données disponibles.

ε

Glen_b -Reinstate Monica
la source
Glen, c'est une excellente réponse. Existe-t-il davantage de ressources sur les "approches raisonnables pour répondre à la question la plus vague"? Ce serait formidable de voir des exemples concrets où les gens répondent "mes données sont-elles suffisamment proches de la distribution X pour mes besoins?" Dans le contexte.
Stumpy Joe Pete
2
@StumpyJoePete Il y a un exemple de réponse à une question plus vague (mais légèrement différente) ici , où la simulation est utilisée pour juger à peu près quelle taille d'échantillon il pourrait être raisonnable d'appliquer un test t avec un biais (exponentiel, disons) Les données. Ensuite, dans une question de suivi, le PO a fourni plus d'informations sur l'échantillon (il était discret, et comme il s'est avéré, beaucoup plus asymétrique que "exponentiel" ne le suggérerait), ... (ctd)
Glen_b -Reinstate Monica
2
(ctd) ... la question a été étudiée plus en détail , toujours à l'aide de la simulation. Bien sûr, dans la pratique, il doit y avoir plus de va-et-vient pour s'assurer qu'il est correctement adapté aux besoins réels de la personne, plutôt que ce que l'on peut deviner à partir de leur explication initiale.
Glen_b -Reinstate Monica
Merci! C'est exactement le genre de chose que je cherchais.
Stumpy Joe Pete du
17

P-valeurs moins utiles qu'elles ne le paraissent. L'estimation est souvent une meilleure approche même dans l'évaluation de la qualité de l'ajustement. On peut utiliser la distance Kolmogorov-Smirnov comme mesure. Il est juste difficile de l'utiliser sans marge d'erreur. Une approche prudente prendrait la limite de confiance supérieure de la distance KS pour guider la modélisation. Cela conduirait (correctement) à beaucoup d'incertitude, ce qui pourrait conduire à conclure que le choix d'une méthode robuste est préférable en premier lieu. Dans cet esprit, et pour revenir à l'objectif initial, lorsque l'on compare la distribution empirique à plus de, disons, 2 formes paramétriques possibles, la vraie variance de la distribution ajustée finale n'a pas de meilleure précision que la fonction de distribution cumulative empirique. Donc, s'il n'y a pas de théorie du sujet pour conduire la sélection de la distribution,

Frank Harrell
la source
3
Je ne peux pas comprendre la raison pour laquelle cela a été rétrogradé; il y a de grands points ici. Il serait utile que la personne qui vote en aval explique ce qu'elle perçoit comme étant le problème. Peut-être que nous apprendrions quelque chose.
Glen_b -Reinstate Monica
2

Je pense que c'est un exemple parfait pour illustrer la différence entre le travail académique et la prise de décision pratique. Dans les milieux universitaires (où je suis), vous pouvez argumenter comme vous le souhaitez tant que cela est jugé raisonnable par les autres. Par conséquent, nous nous retrouvons essentiellement avec une barge argy sans fin, parfois circulaire, les uns avec les autres. En ce sens, cela permet aux gens de travailler.

Cependant, si vous êtes effectivement en mesure de prendre des décisions, la réponse est définitivement oui ou non. L'indécision nuira à votre réputation de décideur. Bien sûr, faire un choix implique non seulement des statistiques mais aussi parfois un élément de pari et de saut de foi. En résumé, ce type d'exercice est dans une certaine mesure utile pour la prise de décision. Cependant, le fait de se fier uniquement à ce test d'hypothèse est une tout autre histoire.

LaTeXFan
la source
2
Ce n'est pas correct à mon humble avis. Le meilleur livre que j'ai lu qui explique pourquoi on prend de meilleures décisions en incorporant toujours l'incertitude dans chaque phase de la décision est Le signal et le bruit de Nate Silver . Par exemple, les joueurs de poker les plus gagnants sont ceux qui ne croient jamais que la probabilité d'une certaine main est de 0 ou 1.
Frank Harrell
1
@FrankHarrell Je me demande comment vous répondriez à des questions telles que la construction d'une route, l'achat d'une action. C'est une question oui ou non. Ce sont des types de questions auxquelles les décideurs doivent répondre.
LaTeXFan
1
@FrankHarrell Les statistiques jouent sûrement un rôle dans la prise de décision. Cependant, du point de vue de la robustesse, tout ce que nous faisons est une approximation de la réalité. Il y a des tonnes de choses que les mathématiques ne pouvaient tout simplement pas expliquer. Et c'est là que d'autres moyens entrent en jeu comme l'instinct.
LaTeXFan
1
P
1
@FrankHarrell Merci pour vos commentaires. Je pense que votre distinction entre décisions irrévocables et autres est un bon point. Il s'agit essentiellement de la dimension temporelle du problème. En peu de temps, la plupart des décisions sont irrévocables. C'est ce qui s'est produit lorsque des personnes sont mises sur place pour passer l'appel. D'un autre côté, si nous pouvons nous permettre une vision à plus long terme, alors vous avez raison - il vaut mieux avoir un système capable de réagir aux changements de circonstances. Néanmoins, certains dommages, financiers ou physiques, sont inévitables.
LaTeXFan
2

Le fait est que d'un point de vue purement statistique, vous ne pouvez pas accepter , mais en pratique vous le faites. Par exemple, si vous estimez le risque d'un portefeuille à l'aide de la valeur à risque ou de mesures similaires, la distribution du rendement du portefeuille est très importante. En effet, le risque est défini par la queue de votre distribution.

Dans les cas de manuels, la distribution normale est souvent utilisée pour des exemples. Cependant, si les rendements de votre portefeuille ont de grosses queues (ce qu'ils font souvent), l'approximation de la distribution normale sous-estimera les risques. Par conséquent, il est important d'examiner les retours et de décider si vous allez utiliser une approximation normale ou non. Remarque, cela ne signifie pas nécessairement l'exécution de tests statistiques, il peut s'agir de parcelles QQ ou d'autres moyens. Cependant, vous devez prendre une décision à un moment donné sur la base de l'analyse des rendements et de vos modèles de rendement, et utiliser normalement ou non.

Par conséquent, à toutes fins pratiques, ne pas rejeter signifie vraiment accepter, mais pas au sens statistique strict. Vous allez accepter la normale et l' utiliser dans vos calculs, qui seront présentés au quotidien la haute direction, à vos régulateurs, auditeurs , etc. Le rejettent pas dans ce cas a des conséquences dans tous les sens, il est aussi ou plus puissant que le résultat statistique stupide.

Aksakal
la source
0

Aucun accusé devant un tribunal n'est jamais innocent. Ils sont soit coupables (rejeter l'hypothèse nulle d'innocent) soit non coupables (ne pas rejeter la présomption d'innocence).

L'absence de preuves n'est pas une preuve d'absence.

BCLC
la source
-1

Ainsi, ma question est, quel est l'intérêt d'effectuer de tels tests si nous ne pouvons pas conclure si les données suivent ou non une distribution donnée?

Si vous avez en tête une distribution alternative (ou un ensemble de distributions) à comparer, cela peut être un outil utile.

Je dirais: j'ai sous la main un ensemble d'observations qui, je pense, peuvent être normalement distribuées. (Je pense que oui parce que j'ai vu des observations d'un caractère similaire qui, selon moi, suivaient sensiblement la courbe normale.) Je pense également qu'elles peuvent ne pas suivre la courbe normale mais une courbe régulière non normale. (Je pense que cela peut être dû au fait que j'ai vu des corps de données comme celui-ci qui ne suivent pas la courbe normale mais qui étaient, par exemple, asymétriques, etc.) 3 Je fais ensuite une enquête le long des lignes suivantes: si les observations provenir d'une distribution normale, à quelle fréquence un tel khi carré que j'ai obtenu se produirait-il? La conclusion est: "Assez rarement - seulement deux fois sur cent." Je fais ensuite une enquête, non déclarée et non calculée, mais je crois absolument nécessaire pour l'achèvement d'un argument valable, comme suit: Si la distribution n'est pas normale, cette expérience, jugée par une différence khi carré, se produirait assez fréquemment. (Tout ce que j'ai à faire est d'imaginer que la courbe non normale a le caractère asymétrique observé de la distribution.) Je rejette donc l'hypothèse normale sur le principe que j'accepte celle d'hypothèses considérées alternatives sur lesquelles l'événement vécu serait plus fréquent. Je dis que le rejet de l'hypothèse nulle n'est valable que sur la volonté d'accepter une alternative (cette alternative n'est pas nécessairement définie précisément à tous égards). ). Je rejette donc l'hypothèse normale sur le principe que j'accepte celle d'hypothèses alternatives envisagées sur lesquelles l'événement vécu serait plus fréquent. Je dis que le rejet de l'hypothèse nulle n'est valable que sur la volonté d'accepter une alternative (cette alternative n'est pas nécessairement définie précisément à tous égards). ). Je rejette donc l'hypothèse normale sur le principe que j'accepte celle d'hypothèses alternatives envisagées sur lesquelles l'événement vécu serait plus fréquent. Je dis que le rejet de l'hypothèse nulle n'est valable que sur la volonté d'accepter une alternative (cette alternative n'est pas nécessairement définie précisément à tous égards).

Or, le raisonnement que j'ai décrit, par opposition à ce que j'ai décrit comme le plus habituel, expliquerait pourquoi ma décision diffère de celle de routine dans les troisième et quatrième cas.

En ce qui concerne le troisième cas, après avoir essayé le test du chi carré, je suis parvenu à la conclusion que, dans l'hypothèse d'une absence de différence par rapport à la normalité, une distribution avec un chi carré si grand aurait rarement lieu. Jusqu'à présent, nous sommes exactement dans la même position que nous étions à ce stade dans le deuxième cas. Mais maintenant, laissez-moi examiner la probabilité que cette expérience se produise si l'approvisionnement initial était régulier et non normal. Cette expérience se produirait-elle plus fréquemment? Il n'y a aucune raison de le dire. La distribution est parfaitement symétrique, c'est-à-dire que l'asymétrie est nulle (il y avait exactement 50% des cas de chaque côté de la moyenne), et un examen rapide des différences par rapport aux fréquences attendues dans les différentes classes montre qu'elles ne sont pas systématiques. thématique, c.-à-d. les écarts plus et les écarts moins alternent dans un ordre aléatoire. Une telle distribution n'est pas à prévoir fréquemment à partir d'une courbe non normale plausible. Nous n'avons donc aucune raison de rejeter la courbe normale.

À mon avis, il n'y a jamais de raison valable de rejeter l'hypothèse nulle, sauf sur la volonté d'en adopter une autre.

Quelques difficultés d'interprétation rencontrées dans l'application du test du chi carré. Joseph Berkson. Journal de l'American Statistical Association. Vol. 33, n ° 203 (sept. 1938), pp. 526-536

Livide
la source
1
La citation / communication de Berkson me semble pertinente et raisonnable. Il est de notoriété publique qu'avec une taille d'échantillon suffisamment grande, toute distribution supposée sera rejetée, ne serait-ce qu'en raison d'une erreur de mesure. Si nous constatons que les données sont peu probables dans le cadre d'une distribution supposée, ne devrions-nous pas essayer de comprendre ce qui serait un meilleur choix? Et si nous ne pouvons pas justifier ces autres choix, devrions-nous supposer, si nécessaire, la distribution la plus simple possible? Quelqu'un peut-il expliquer pourquoi cela a été rejeté?
Livide