Nous pouvons utiliser la statistique F pour déterminer si au moins l'un des prédicteurs a un effet sur la réponse. Mais pourquoi ne pas prendre une valeur de p minimale pour tous les prédicteurs? Cela ne nécessite pas l'introduction d'un nouveau concept.
f-statistic
Yurii
la source
la source
Réponses:
Ici, je suppose que vous avez l'intention de comparer un test basé sur la valeur p minimale avec un test F global.
En choisissant la plus petite valeur p et en la comparant à un niveau de signification particulier , votre valeur p n'a plus la même signification qu'elle le ferait pour un seul test. En effet, vous testez toutes les variables individuelles (et si elles entraînent un rejet, vous concluez qu'au moins l'un des prédicteurs a un effet sur la réponse). Le taux d'erreur global de type I est beaucoup plus élevé qu'un seul test. (Le problème des tests multiples .)α
Si vous réduisez votre niveau de signification sur les tests individuels, de sorte que vous faites moins d'erreurs de type I (pour le rendre plus comparable au test global au niveau de signification ), vous êtes moins susceptible de trouver un effet significatif (vous abandonnez le pouvoir en réduisant le taux d'erreur de type I).α
Même si vous ne tenez pas compte des tests multiples en déplaçant le niveau de signification, les statistiques univariées peuvent facilement être toutes insignifiantes lorsqu'il existe une relation conjointe claire impliquant les deux.
Voici un exemple. Tout d'abord, quelques données:
Sortie de régression (de R :)
La plus petite valeur de p est de 0,114 - vous n'auriez pas rejeté l'hypothèse nulle d'absence d'association même au niveau de signification de 10%, mais la régression globale conduirait au rejet même si votre niveau de signification était de 1%. C'est sans même traiter le problème des tests multiples.
Il n'est pas non plus utile d'exécuter des régressions distinctes et de vérifier les valeurs de p là-bas, car (dans un type d'exemple différent de celui ci-dessus), il est tout à fait possible qu'il n'y ait pas de relation dans les régressions univariées alors qu'il existe une relation forte dans la régression bivariée .
la source