Différence entre l'analyse de régression et l'analyse de la variance?

21

J'apprends en ce moment sur l'analyse de régression et l'analyse de la variance.

Dans l'analyse de régression, vous avez une variable fixe et vous voulez savoir comment la variable va avec l'autre variable.

Dans l'analyse de la variance, vous voulez savoir par exemple: si cette nourriture animale spécifique influence le poids des animaux ... SO un var fixe et l'influence sur les autres ...

Est-ce bien ou mal, les pls m'aident ...

Le Max
la source

Réponses:

25

Supposons que votre ensemble de données se compose d'un ensemble pour et que vous souhaitez examiner la dépendance de sur .i = 1 , , n y x(Xje,yje)je=1,,nyX

Supposons que vous trouviez les valeurs et de et qui minimisent la somme résiduelle des carrés Ensuite, vous prenez comme étant la valeur prévue pour toute valeur (pas nécessairement déjà observée) . C'est une régression linéaire. β αβ n Σ i=1(yi-(α+βxi))2. Y = α + β xyxα^β^αβ

je=1n(yje-(α+βXje))2.
y^=α^+β^XyX

Envisagez maintenant de décomposer la somme totale des carrés avec degrés de liberté, en parties "expliquées" et "inexpliquées": avec et degrés de liberté, respectivement. C'est l'analyse de la variance, et on considère ensuite des choses comme les statistiques Cette n-1 n Σ i = 1 ( ( α + β x i ) - ˉ y ) 2 expliqué+ n Σ i = 1 ( y i - ( α + β x i ) ) 2 inexpliquée. 1n-2F= n i =

je=1n(yje-y¯)2où y¯=y1++ynn
n-1
je=1n((α^+β^Xje)-y¯)2expliqué + je=1n(yje-(α^+β^Xje))2inexpliqué.
1n-2β=0
F=je=1n((α^+β^Xje)-y¯)2/1je=1n(yje-(α^+β^Xje))2/(n-2).
La statistique F teste l'hypothèse nulle .β=0

On rencontre souvent d'abord le terme «analyse de variance» lorsque le prédicteur est catégorique, de sorte que vous ajustez le modèle où identifie quelle catégorie est la valeur du prédicteur. S'il y a catégories, vous obtiendrez degrés de liberté au numérateur dans la statistique F, et généralement degrés de liberté au dénominateur. Mais la distinction entre régression et analyse de variance est toujours la même pour ce type de modèle. i k k - 1 n - k

y=α+βje
jekk-1n-k

Quelques points supplémentaires:

  • Pour certains mathématiciens, le compte rendu ci-dessus peut faire apparaître que tout le champ n'est que ce qui est vu ci-dessus, il peut donc sembler mystérieux que la régression et l'analyse de la variance soient des domaines de recherche actifs. Il y a beaucoup de choses qui ne rentrent pas dans une réponse appropriée pour la publication ici.
  • Il y a une erreur populaire et tentante, qui est appelée "linéaire" car le graphique de est une ligne. C'est faux. L'une de mes réponses précédentes explique pourquoi on l'appelle toujours "régression linéaire" lorsque vous ajustez un polynôme via les moindres carrés.y=α+βX
Michael Hardy
la source
5
@MichaelHardy Alors que la décomposition de la variance en composantes dans la régression est souvent appelée une analyse de la table de variance. Ce n'est pas ce que les statisticiens entendent couramment par ANOVA. Les méthodes 1) la régression linéaire, 2) l'analyse de la variance et 3) l'analyse de la covariance sont des catégories sous le titre général du modèle linéaire général, la régression linéaire implique des covariables continues, l'ANOVA comprend uniquement des groupes discrets et l'ANCOVA est une combinaison de covariables continues et groupes discrets.
Michael R. Chernick
1
Informellement, on parle parfois de cette façon, et ma réponse ne l'a pas dit, mais il faut savoir que (1) l'estimation des moindres carrés des coefficients se fait dans l'un des deux problèmes (prédicteurs continus ou catégoriques) et une décomposition de la somme des carrés avec leurs degrés de liberté correspondants --- une table anova --- se fait également dans l'un ou l'autre des deux problèmes.
Michael Hardy
5
Avec cette concession, vous devez admettre qu'il n'y a rien de mal à ma réponse. Les termes ANOVA, ANCOVA et régression ne sont pas non plus des termes informels. Ils sont très distinctement formels et il est incorrect de dire au PO que l'ANOVA est la décomposition de la variance dans la régression. Le fait qu'une procédure statistique qu'une personne nommée anova puisse faire n'importe quel modèle linéaire ne prouve rien. Dans SAS proc reg ne traite que de régression, proc anova ne traite que de l'analyse de la variance telle que je l'ai définie et proc glm est celle qui fait les deux.
Michael R. Chernick
1
.... et dans R, "lm (....)" donne des coefficients de régression dans les deux situations, et "anova (lm (....))" donne la décomposition de la somme des carrés et des degrés de liberté, dans les deux situations. En ce qui concerne "doivent concéder", j'ai mis quelques commentaires supplémentaires sous votre réponse. Certes, si vous parlez de régression logistique, ce serait plus clair si vous disiez que dès que vous ne parlez pas de régression linéaire, le mot «régression» est un terme très large qui peut inclure beaucoup de choses.
Michael Hardy
@MichaelHardy N'hésitez pas à commenter ma question posée sur le site stats.SE. Je pense que votre réponse et ma réponse à cette question sont toutes les deux correctes en quelque sorte. Je m'oppose certainement à ce que ma réponse soit rejetée. Je voulais obtenir l'avis des autres membres de la communauté des statistiques à ce sujet.
Michael R. Chernick
5

La principale différence est la variable de réponse. Alors que la régression logistique traite d'une réponse binaire dans l'analyse de régression linéaire et également d'une régression non linéaire, la variable de réponse est continue. Vous avez une ou plusieurs variables (ou covariables) qui ont une relation fonctionnelle avec la variable de réponse continue. Dans l'analyse de la variance, la réponse est continue mais appartient à quelques catégories différentes (par exemple, groupe de traitement et groupe témoin). Dans l'analyse de la variance, vous recherchez une différence dans la réponse moyenne entre les groupes. En régression linéaire, vous regardez comment la réponse change à mesure que les covariables changent. Une autre façon de voir la différence est de dire que dans la régression, les covariables sont continues alors que dans l'analyse de la variance, il s'agit d'un ensemble discret de groupes.

Michael R. Chernick
la source
6
J'aurais pris la question pour signifier la différence entre la régression linéaire et l'analyse de la variance; introduire une régression logistique semble s'éloigner du sujet. Cependant, votre dernière phrase est fausse. L'analyse de la variance peut être effectuée, que les prédicteurs soient discrets ou continus.
Michael Hardy
1
Il existe en effet des prédicteurs dans l'analyse de la variance. Dans votre exemple, le prédicteur est catégorique, mais il n'est pas nécessaire qu'il en soit ainsi. L'analyse de la variance ne prend pas seulement en compte les problèmes impliquant des "groupes discrets".
Michael Hardy
3
@MichaelHardy Je prends du recul car lorsque je vérifie mes encyclopédies statistiques, je trouve une référence à l'analyse de la variance en termes de décomposition de la variance dans le modèle linéaire général. Mais le terme a deux sens et bien souvent l'ANOVA se distingue de l'ANCOVA et de la régression de la manière que j'ai décrite. Le PO doit donc être conscient des deux termes, celui qui se réfère à l'infernece sur les composantes de la variance dans le modèle linéaire général et celui qui se réfère à la sous-classe des modèles linéaires qui impliquent uniquement des groupes discrets.
Michael R. Chernick
2
Je pense que l'utilisation que vous utilisez est informelle. Il semble étrange de parler de régression logistique sans le dire est juste une d'une variété de « régressions », lorsque ce terme est utilisé au sens large d'estimer une valeur moyenne ou prédite d'une variable donnée une autre, puis distinguer que de l' analyse de la variance . Mais la question de la différence entre les modèles de régression linéaire et l'analyse de la variance semble être une question plus sensible. Mais il y a souvent des incertitudes quant à l'intention de l'affiche originale.
Michael Hardy
7
Quelles que soient vos intentions, je trouve que le commentaire " J'ai un doctorat en statistiques, ... " est inapproprié. Tout d'abord, il ne fait rien pour résoudre le problème en question. Faire appel à l'autorité est une approche souvent utilisée, mais très peu judicieuse, pour prouver les choses. Faire appel à votre propre autorité est encore plus problématique. Cela peut également être interprété comme montrant (par inadvertance ou autrement) un manque de respect pour @MichaelHardy (le personnel auquel vous vous adressez), qui se trouve également avoir un doctorat en statistiques d'un programme très réputé.
cardinal
2

L'analyse de variance (ANOVA) est un ensemble de méthodes statistiques d'analyse des observations supposées être de la structure

yje=β1Xje1+β2Xje2++βpXjep+eje, je=1(1)npβ1,β2,,βpe1,e2,,enXjejeje0σ2

E(yn×1)=Xβ,(y)=σ2jen

XjejβjXjejβj01

XjejtTt2,e-T

Il s'agit principalement de deux types d' analyse.

Argha
la source
je=1(1)n
1
je=1(1)nje=1,2,,n
-1

Dans l'analyse de régression, vous avez une variable fixe et vous voulez savoir comment la variable va avec l'autre variable.

Dans l'analyse de la variance, vous voulez savoir par exemple: Si cette nourriture animale spécifique influence le poids des animaux ... SO on var fixe et l'influence sur les autres.

Aiza
la source
1
Bonjour Aiza, bienvenue à SE. Vous devez le modifier pour donner plus de contexte et clarifier la véritable question.
Arrêtez les questions de clôture rapidement