Je suis vraiment confus quant à la différence de sens concernant le contexte de régression linéaire des termes suivants:
- Statistique F
- R au carré
- Erreur standard résiduelle
J'ai trouvé cette webstie qui m'a donné un bon aperçu des différents termes impliqués dans la régression linéaire, mais les termes mentionnés ci-dessus ressemblent beaucoup (pour autant que je sache). Je citerai ce que j'ai lu et ce qui m'a dérouté:
L'erreur standard résiduelle est la mesure de la qualité d'un ajustement de régression linéaire ....... L'erreur standard résiduelle est la quantité moyenne que la réponse (dist) déviera de la vraie ligne de régression.
1. Il s'agit donc en fait de la distance moyenne des valeurs observées à la ligne lm?
La statistique R au carré fournit une mesure de l'adéquation du modèle avec les données réelles.
2. Maintenant, je suis confus parce que si le RSE nous indique dans quelle mesure nos points observés s'écartent de la ligne de régression, un RSE faible nous indique en fait "votre modèle correspond bien en fonction des points de données observés" -> donc à quel point notre modèles s'adapte, alors quelle est la différence entre R au carré et RSE?
La statistique F est un bon indicateur de l'existence d'une relation entre notre prédicteur et les variables de réponse.
3. Est-il vrai que nous pouvons avoir une valeur F indiquant une relation forte qui est NON LINÉAIRE de sorte que notre RSE est élevé et notre R au carré est faible
la source
Réponses:
La meilleure façon de comprendre ces termes est de faire un calcul de régression à la main. J'ai écrit deux réponses étroitement liées ( ici et ici ), mais elles peuvent ne pas vous aider pleinement à comprendre votre cas particulier. Mais lisez-les néanmoins. Peut-être qu'ils vous aideront également à mieux conceptualiser ces termes.
Dans une régression (ou ANOVA), nous construisons un modèle basé sur un échantillon de données qui nous permet de prédire les résultats d'une population d'intérêt. Pour ce faire, les trois composantes suivantes sont calculées dans une régression linéaire simple à partir de laquelle les autres composantes peuvent être calculées, par exemple les carrés moyens, la valeur F, leR2 (également le R 2 ajustéR2 ) et l'erreur-type résiduelle ( RSE ):
Chacun évalue dans quelle mesure le modèle décrit les données et représente la somme des distances au carré entre les points de données et le modèle ajusté (illustrées par des lignes rouges dans le graphique ci-dessous).
LeSStotal évalue l'adéquation de la moyenne avec les données. Pourquoi le méchant? Parce que la moyenne est le modèle le plus simple que nous pouvons adapter et sert donc de modèle auquel la ligne de régression des moindres carrés est comparée. Ce tracé utilisant l'
cars
ensemble de données montre que:LeSSresidual
LeSSmodel compare à quel point la droite de régression est comparée à la moyenne (c.-à-d. La différence entre le SStotal et le SSresidual
Pour répondre à vos questions, calculons d'abord les termes que vous souhaitez comprendre en commençant par le modèle et la sortie comme référence:
Les sommes des carrés sont les distances au carré des points de données individuels au modèle:
Les carrés moyens sont les sommes des carrés moyennes des degrés de liberté:
Mes réponses à vos questions:
Q1:
Q2:
Q3:
Votre troisième question est un peu difficile à comprendre, mais je suis d'accord avec la citation que vous avez fournie.
la source
(2) Vous le comprenez correctement, vous avez juste du mal avec le concept.
la source
Juste pour compléter ce que Chris a répondu ci-dessus:
La statistique F est la division du carré moyen du modèle et du carré moyen résiduel. Un logiciel comme Stata, après ajustement d'un modèle de régression, fournit également la valeur de p associée à la statistique F. Cela vous permet de tester l'hypothèse nulle que les coefficients de votre modèle sont nuls. On pourrait y voir la "signification statistique du modèle dans son ensemble".
la source