J'essaie de comprendre la logique derrière le test F ANOVA dans l'analyse de régression linéaire simple. Ma question est la suivante. Lorsque la valeur F, c'est-à MSR/MSE
- dire
est grande, nous acceptons le modèle comme significatif. Quelle est la logique derrière cela?
regression
anova
Je ne sais pas
la source
la source
Réponses:
Dans le cas le plus simple, lorsque vous n'avez qu'un seul prédicteur (régression simple), disons , le test F vous indique si l'inclusion de X 1 explique une plus grande partie de la variance observée dans Y par rapport au modèle nul (interception uniquement) . L'idée est alors de tester si la variance expliquée ajoutée (variance totale, TSS, moins variance résiduelle, RSS) est suffisamment importante pour être considérée comme une "quantité significative". Nous comparons ici un modèle avec un prédicteur, ou variable explicative, à une ligne de base qui n'est que du «bruit» (rien sauf la moyenne).X1 F X1 Y
De même, vous pouvez calculer une statistique dans un paramètre de régression multiple: dans ce cas, cela équivaut à un test de tous les prédicteurs inclus dans le modèle, ce qui signifie que dans le cadre HT, nous nous demandons si l'un d'eux est utile pour prédire la réponse variable. C'est la raison pour laquelle vous pouvez rencontrer des situations où le test F pour l'ensemble du modèle est significatif alors que certains des tests t ou z associés à chaque coefficient de régression ne le sont pas.F F t z
La statistique ressembleF
où est le nombre de paramètres du modèle et n le nombre d'observations. Cette quantité doit être référée à une distribution F p - 1 , n - p pour une valeur critique ou p . Il s'applique également au modèle de régression simple et présente évidemment une certaine analogie avec le cadre ANOVA classique.p n Fp−1,n−p p
Sidenote. Lorsque vous avez plusieurs prédicteurs, vous vous demandez peut-être si le fait de considérer uniquement un sous-ensemble de ces prédicteurs "réduit" la qualité de l'ajustement du modèle. Cela correspond à une situation où nous considérons des modèles imbriqués . C'est exactement la même situation que les précédentes, où nous comparons un modèle de régression donné avec un modèle nul (aucun prédicteur inclus). Afin d'évaluer la réduction de la variance expliquée, nous pouvons comparer la somme résiduelle des carrés (RSS) des deux modèles (c'est-à-dire ce qui reste inexpliqué une fois que vous tenez compte de l'effet des prédicteurs présents dans le modèle). Soit et M 1 le modèle de base (avec pM0 M1 p et un modèle avec un prédicteur supplémentaire ( paramètres ), alors si RSS M 1 - RSS M 0 est petit, nous considérerions que le modèle plus petit fonctionne aussi bien que le plus grand. Une bonne statistique à utiliser serait le rapport de tels SS, ( RSS M 1 - RSS M 0 ) / RSS M 0 , pondéré par leurs degrés de liberté ( p - q pour le numérateur, et n - pq=p+1 RSSM1−RSSM0 (RSSM1−RSSM0)/RSSM0 p−q n−p pour le dénominateur). Comme déjà dit, on peut montrer que cette quantité suit une distribution (ou Fisher-Snedecor) avec p - q et n - p degrés de liberté. Si le F observé est plus grand que le quantile F correspondant à un α donné (typiquement, α = 0,05 ), alors nous conclurons que le plus grand modèle fait un "meilleur travail". (Cela n'implique nullement que le modèle est correct, d'un point de vue pratique!)F p−q n−p F F α α=0.05
Une généralisation de l'idée ci-dessus est le test du rapport de vraisemblance .
Si vous utilisez R, vous pouvez jouer avec les concepts ci-dessus comme ceci:
la source
anova()
fonction dans R renvoie une ligne individuelle pour chaque prédicteur du modèle. Par exemple, desanova(lm0)
rendements supérieurs à une ligne pourV1
,V2
etResiduals
(et non totale). En tant que tel, nous obtenons deux statistiques F * pour ce modèle. Comment cela change-t-il l'interprétation de la statistique F * rapportée dans le tableau ANOVA?anova()
pour la comparaison GLM. Lorsqu'il est appliqué à un objetlm
ouaov
, il affiche des effets distincts (SS) pour chaque terme du modèle et n'affiche pas TSS. (J'appliquais cela dans l'autre sens, à savoir après avoir ajusté une ANOVA avecaov()
, je peux utilisersummary.lm()
pour avoir une idée des contrastes de traitement.) Cependant, il y a des problèmes subtils entresummary.lm()
etsummary.aov()
, en particulier liés à l'ajustement séquentiel.