Par exemple, la statistique de test calculée pour le test ANOVA est comparée à une distribution F, tandis qu'un moyen de comparaison de test t compare la statistique de test à une distribution t.
8
Par exemple, la statistique de test calculée pour le test ANOVA est comparée à une distribution F, tandis qu'un moyen de comparaison de test t compare la statistique de test à une distribution t.
Réponses:
La réponse complète à votre question serait un cours de statistique mathématique d'un semestre complet (ce serait une bonne idée à suivre si vous êtes vraiment intéressé).
Mais un ensemble de réponses courtes et partielles sont:
Généralement, nous partons de la distribution normale, elle s'est avérée être une approximation raisonnable pour de nombreuses situations du monde réel et le théorème de la limite centrale (et d'autres) nous dit que c'est une meilleure approximation quand on regarde les moyens d'échantillons aléatoires simples ( une taille d'échantillon plus grande conduit à une meilleure approximation par la normale). Ainsi, la normale est souvent la distribution par défaut à considérer s'il n'y a pas de raison de croire que ce ne sera pas une approximation raisonnable. Bien qu'avec les ordinateurs modernes, il est maintenant plus facile d'utiliser des outils non paramétriques ou autres et nous n'avons pas besoin de dépendre autant de la normale (mais l'histoire / l'inertie / etc. nous maintient en utilisant des méthodes basées sur la normale).
Si vous mettez au carré une variable qui provient d'une distribution normale standard, elle suit une distribution chi carré. Si vous additionnez des variables d'un chi carré, vous obtenez un autre chi carré (changement de degrés de liberté), ce qui signifie que la variance (mise à l'échelle) suit un chi carré.
Il montre également qu'une fonction du rapport de vraisemblance suit une distribution chi carré asymptotiquement si le zéro est vrai et que d'autres hypothèses sont valables.
Une normale standard divisée par la racine carrée d'un chi carré (et certains paramètres de mise à l'échelle) suit une distribution t, donc la statistique t commune (sous l'hypothèse nulle) suit le t.
Le rapport de 2 chis carrés (divisé par les degrés de liberté et d'autres considérations) suit une distribution F. Les tests anova F sont basés sur le rapport de 2 estimations de la même variance (sous le nul) et comme les variances suivent un Chi au carré, le rapport suit un F (sous le nul et les hypothèses retenues).
Les gens intelligents ont élaboré ces règles afin que nous puissions tous les appliquer. Un cours complet de mathématiques / statistiques donnera plus d'histoire et de dérivations (et peut-être plus d'alternatives), cela était juste destiné à un aperçu rapide des tests et des distributions les plus courants.
la source
Une manière différente de répondre à votre question est la pensée séquentielle suivante que je voudrais illustrer avec un exemple simple:
1) Quelle est l'hypothèse nulle liée à la question d'intérêt? Par exemple, aux États-Unis, le revenu moyen est de 6 000 $ par mois.
2) Comment mesurer l'écart par rapport à l'hypothèse nulle sur la base des données disponibles? Premier essai:T= Revenu moyen. Plus loin de 6000, moins l'hypothèse nulle est plausible et plus nous devons la rejeter.
3) Trouvez la distribution deT si l'hypothèse nulle est vraie. Cette "distribution nulle" est la base de la décision de test. Dans notre exemple, si l'échantillon est grand, le théorème de limite centrale nous dit queT est distribué normalement normalement avec une moyenne de 6000 et un écart type σ/n--√ , où σ est le véritable écart-type du revenu aux États-Unis. Nous savonsn et σ peut être estimé par l'écart type de l'échantillon σ^ .
Principalement, nous pourrions maintenant nous pencher en arrière et utiliser ce résultat pour trouver des décisions de test. Cependant, parce que nous, les statisticiens, sommes gentils, nous essayons généralement de modifier la statistique de test pour garder la distribution nulle exempte d'autant d'informations dépendantes des données que possible. Dans notre exemple simple, nous pourrions utiliser
la source
Il n'y a que trois distributions basées sur la réalité. (1) Le binôme (2) Le multinomial (3) L'approximateur d'Abraham De Moivre au binôme. Les autres distributions sont des expressions «dérivées» avec une plage dynamique très limitée et très peu de contact avec la réalité. Exemple. Un statisticien vous dira que vos données correspondent à une distribution de Poisson. Il va en fait croire que la distribution de Poisson a une sorte de réalité «autonome». La vérité est que la distribution de Poisson se rapproche du binôme pour de très petites et très grandes quantités de biais. Maintenant que nous avons tous des ordinateurs, il n'y a aucune raison de faire appel à des approximateurs. Mais, malheureusement, les vieilles habitudes ont la vie dure.
la source