Régression linéaire Que nous disent la statistique F, R au carré et l'erreur-type résiduelle?

14

Je suis vraiment confus quant à la différence de sens concernant le contexte de régression linéaire des termes suivants:

  • Statistique F
  • R au carré
  • Erreur standard résiduelle

J'ai trouvé cette webstie qui m'a donné un bon aperçu des différents termes impliqués dans la régression linéaire, mais les termes mentionnés ci-dessus ressemblent beaucoup (pour autant que je sache). Je citerai ce que j'ai lu et ce qui m'a dérouté:

L'erreur standard résiduelle est la mesure de la qualité d'un ajustement de régression linéaire ....... L'erreur standard résiduelle est la quantité moyenne que la réponse (dist) déviera de la vraie ligne de régression.

1. Il s'agit donc en fait de la distance moyenne des valeurs observées à la ligne lm?

La statistique R au carré fournit une mesure de l'adéquation du modèle avec les données réelles.

2. Maintenant, je suis confus parce que si le RSE nous indique dans quelle mesure nos points observés s'écartent de la ligne de régression, un RSE faible nous indique en fait "votre modèle correspond bien en fonction des points de données observés" -> donc à quel point notre modèles s'adapte, alors quelle est la différence entre R au carré et RSE?

La statistique F est un bon indicateur de l'existence d'une relation entre notre prédicteur et les variables de réponse.

3. Est-il vrai que nous pouvons avoir une valeur F indiquant une relation forte qui est NON LINÉAIRE de sorte que notre RSE est élevé et notre R au carré est faible

KingBoomie
la source
Q 3 La valeur F n'indique pas une relation non linéaire. Il s'agit d'un rapport qui indique s'il existe une relation substantielle (constante) entre les deux variables - dépendante et indépendante.
Subhash C. Davar
Il ne nous dit pas la nature de la relation - non linéaire ou linéaire.
Subhash C. Davar

Réponses:

12

La meilleure façon de comprendre ces termes est de faire un calcul de régression à la main. J'ai écrit deux réponses étroitement liées ( ici et ici ), mais elles peuvent ne pas vous aider pleinement à comprendre votre cas particulier. Mais lisez-les néanmoins. Peut-être qu'ils vous aideront également à mieux conceptualiser ces termes.

Dans une régression (ou ANOVA), nous construisons un modèle basé sur un échantillon de données qui nous permet de prédire les résultats d'une population d'intérêt. Pour ce faire, les trois composantes suivantes sont calculées dans une régression linéaire simple à partir de laquelle les autres composantes peuvent être calculées, par exemple les carrés moyens, la valeur F, le R2 (également le R 2 ajustéR2 ) et l'erreur-type résiduelle ( RSE ):

  1. sommes totales des carrés ( SStotal )
  2. sommes résiduelles de carrés ( SSresidual )
  3. modéliser des sommes de carrés ( SSmodel )

Chacun évalue dans quelle mesure le modèle décrit les données et représente la somme des distances au carré entre les points de données et le modèle ajusté (illustrées par des lignes rouges dans le graphique ci-dessous).

Le SStotal évalue l'adéquation de la moyenne avec les données. Pourquoi le méchant? Parce que la moyenne est le modèle le plus simple que nous pouvons adapter et sert donc de modèle auquel la ligne de régression des moindres carrés est comparée. Ce tracé utilisant l' carsensemble de données montre que:

entrez la description de l'image ici

Le SSresidual

entrez la description de l'image ici

Le SSmodel compare à quel point la droite de régression est comparée à la moyenne (c.-à-d. La différence entre le SStotal et le SSresidual

entrez la description de l'image ici

Pour répondre à vos questions, calculons d'abord les termes que vous souhaitez comprendre en commençant par le modèle et la sortie comme référence:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

Les sommes des carrés sont les distances au carré des points de données individuels au modèle:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

Les carrés moyens sont les sommes des carrés moyennes des degrés de liberté:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

Mes réponses à vos questions:

Q1:

  1. Il s'agit donc en fait de la distance moyenne des valeurs observées à la ligne lm?

RSEMSresidual

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

SSresidualMSresidual SSresidualRSEreprésente la distance moyenne des données observées du modèle. Intuitivement, cela est également parfaitement logique, car si la distance est plus petite, l'ajustement de votre modèle est également meilleur.

Q2:

  1. Maintenant, je suis confus parce que si le RSE nous indique dans quelle mesure nos points observés s'écartent de la ligne de régression, un RSE faible nous indique en fait "votre modèle s'adapte bien sur la base des points de données observés" -> donc la qualité de nos modèles , alors quelle est la différence entre R au carré et RSE?

R2SSmodelSStotal :

# R squared
r.sq <- ss.model/ss.total
r.sq

R2SStotalSSmodel .

RSER2RSE vous dit quelque chose sur l'inexactitude du modèle (dans ce cas la droite de régression) compte tenu des données observées.

R2 d'autre part vous indique la variation expliquée par le modèle (c'est-à-dire la droite de régression) par rapport à la variation qui a été expliquée par la moyenne seule (c'est-à-dire le modèle le plus simple).

Q3:

  1. Est-il vrai que nous pouvons avoir une valeur F indiquant une relation forte qui est NON LINÉAIRE de sorte que notre RSE est élevé et notre R au carré est faible

FMSmodelMSresidual

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

F

Votre troisième question est un peu difficile à comprendre, mais je suis d'accord avec la citation que vous avez fournie.

Stefan
la source
3

(2) Vous le comprenez correctement, vous avez juste du mal avec le concept.

R2

R2

Chris
la source
0

Juste pour compléter ce que Chris a répondu ci-dessus:

La statistique F est la division du carré moyen du modèle et du carré moyen résiduel. Un logiciel comme Stata, après ajustement d'un modèle de régression, fournit également la valeur de p associée à la statistique F. Cela vous permet de tester l'hypothèse nulle que les coefficients de votre modèle sont nuls. On pourrait y voir la "signification statistique du modèle dans son ensemble".

YSC
la source