Supposons que votre ensemble de données se compose d'un ensemble pour et que vous souhaitez examiner la dépendance de sur .i = 1 , … , n y x( xje, yje)i = 1 , … , nyX
Supposons que vous trouviez les valeurs et de et qui minimisent la somme résiduelle des carrés
Ensuite, vous prenez comme étant la valeur prévue pour toute valeur (pas nécessairement déjà observée) . C'est une régression linéaire. β αβ n Σ i=1(yi-(α+βxi))2. Y = α + β xyxα^β^αβ
∑i = 1n( yje- ( α + βXje) )2.
y^= α^+ β^XyX
Envisagez maintenant de décomposer la somme totale des carrés
avec degrés de liberté, en parties "expliquées" et "inexpliquées":
avec et degrés de liberté, respectivement. C'est l'analyse de la variance, et on considère ensuite des choses comme les statistiques
Cette n-1 n Σ i = 1 ( ( α + β x i ) - ˉ y ) 2 ⏟ expliqué+ n Σ i = 1 ( y i - ( α + β x i ) ) 2 ⏟ inexpliquée. 1n-2F=∑ n i =
∑i = 1n( yje- y¯)2où y¯= y1+ ⋯ + ynn
n - 1∑i = 1n( ( α^+ β^Xje) - y¯)2expliqué + ∑ i = 1n( yje- ( α^+ β^Xje) )2inexpliqué.
1n - 2β=0F= ∑ni = 1( ( α^+ β^Xje) - y¯)2/ 1∑ni = 1( yje- ( α^+ β^Xje) )2/ (n-2).
La statistique F teste l'hypothèse nulle .
β= 0
On rencontre souvent d'abord le terme «analyse de variance» lorsque le prédicteur est catégorique, de sorte que vous ajustez le modèle
où identifie quelle catégorie est la valeur du prédicteur. S'il y a catégories, vous obtiendrez degrés de liberté au numérateur dans la statistique F, et généralement degrés de liberté au dénominateur. Mais la distinction entre régression et analyse de variance est toujours la même pour ce type de modèle. i k k - 1 n - k
y= α + βje
jekk - 1n - k
Quelques points supplémentaires:
- Pour certains mathématiciens, le compte rendu ci-dessus peut faire apparaître que tout le champ n'est que ce qui est vu ci-dessus, il peut donc sembler mystérieux que la régression et l'analyse de la variance soient des domaines de recherche actifs. Il y a beaucoup de choses qui ne rentrent pas dans une réponse appropriée pour la publication ici.
- Il y a une erreur populaire et tentante, qui est appelée "linéaire" car le graphique de est une ligne. C'est faux. L'une de mes réponses précédentes explique pourquoi on l'appelle toujours "régression linéaire" lorsque vous ajustez un polynôme via les moindres carrés.y= α + βX
La principale différence est la variable de réponse. Alors que la régression logistique traite d'une réponse binaire dans l'analyse de régression linéaire et également d'une régression non linéaire, la variable de réponse est continue. Vous avez une ou plusieurs variables (ou covariables) qui ont une relation fonctionnelle avec la variable de réponse continue. Dans l'analyse de la variance, la réponse est continue mais appartient à quelques catégories différentes (par exemple, groupe de traitement et groupe témoin). Dans l'analyse de la variance, vous recherchez une différence dans la réponse moyenne entre les groupes. En régression linéaire, vous regardez comment la réponse change à mesure que les covariables changent. Une autre façon de voir la différence est de dire que dans la régression, les covariables sont continues alors que dans l'analyse de la variance, il s'agit d'un ensemble discret de groupes.
la source
L'analyse de variance (ANOVA) est un ensemble de méthodes statistiques d'analyse des observations supposées être de la structure
Il s'agit principalement de deux types d' analyse.
la source
Dans l'analyse de régression, vous avez une variable fixe et vous voulez savoir comment la variable va avec l'autre variable.
Dans l'analyse de la variance, vous voulez savoir par exemple: Si cette nourriture animale spécifique influence le poids des animaux ... SO on var fixe et l'influence sur les autres.
la source