Les pages d’aide de R supposent que je sais ce que signifient ces chiffres, mais je ne les connais pas. J'essaie de comprendre intuitivement chaque chiffre ici. Je vais simplement poster le résultat et commenter ce que j'ai découvert. Il y aura peut-être des erreurs, car je vais simplement écrire ce que je suppose. J'aimerais surtout savoir ce que signifie la valeur t dans les coefficients et pourquoi ils affichent l'erreur standard résiduelle.
Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)
Residuals:
Min 1Q Median 3Q Max
-1.09907 -0.23626 -0.01064 0.23345 1.17532
Ceci est un résumé en 5 points des résidus (leur moyenne est toujours égale à 0, non?). Les chiffres peuvent être utilisés (je devine ici) pour voir rapidement s'il y a de grandes valeurs aberrantes. Vous pouvez aussi déjà le voir ici si les résidus sont loin d’être distribués normalement (ils devraient être distribués normalement).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.30843 0.06210 53.278 < 2e-16 ***
iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Estimations , calculées par la régression des moindres carrés. De plus, l'erreur type est . Je voudrais savoir comment cela est calculé. Je n'ai aucune idée d'où proviennent la valeur t et la valeur p correspondante. Je sais que devrait être distribué normalement, mais comment la valeur t est-elle calculée? σβi β
Residual standard error: 0.407 on 148 degrees of freedom
, je suppose. Mais pourquoi calculons-nous cela et que nous dit-il?
Multiple R-squared: 0.134, Adjusted R-squared: 0.1282
Σ n i = 1 ( ^ y i - ˉ y )2 , qui est . Le rapport est proche de 1 si les points se trouvent sur une ligne droite et de 0 s'ils sont aléatoires. Quel est le R-carré ajusté?
F-statistic: 22.91 on 1 and 148 DF, p-value: 4.073e-06
F et p pour l’ ensemble du modèle, pas seulement pour les simples comme précédemment. La valeur F est . Plus elle grandit, plus il est improbable que les n'aient aucun effet.s 2 y β
la source
Réponses:
Résumé en cinq points
oui, l’idée est de donner un bref résumé de la distribution. Il devrait être à peu près symétrique par rapport à la moyenne, la médiane devrait être proche de 0, les valeurs 1Q et 3Q devraient idéalement être des valeurs approximativement similaires.
Coefficients etβi^s
Chaque coefficient du modèle est une variable aléatoire gaussienne (normale). Le est l'estimation de la moyenne de la distribution de cette variable aléatoire et l'erreur type est la racine carrée de la variance de cette distribution. C'est une mesure de l'incertitude dans l'estimation de .βi^ βi^
Vous pouvez regarder comment ceux-ci sont calculés (ainsi que les formules mathématiques utilisées) sur Wikipedia . Notez que tout programme de statistiques qui se respecte ne se servira pas des équations mathématiques standard pour calculer le car leur sur un ordinateur peut entraîner une perte de précision importante dans les calculs.βi^
Les statistiques sont les estimations ( ) divisées par leurs erreurs types ( ), par exemple . En supposant que vous ayez le même modèle en objet que votre Q:t βi^ σi^ ti=βi^σi^
mod
alors les rapports valeurs sont calculés comme suit:t
Oùβi^ σi^
coef(mod)
sont les et donne les racines carrées des éléments diagonaux de la matrice de covariance des paramètres du modèle, qui sont les erreurs types des paramètres ( ).sqrt(diag(vcov(mod)))
La valeur p est la probabilité d'atteindre aégale ou supérieure à la valeur t absolue observée si l'hypothèse nulle ( ) était vraie, où est . Ils sont calculés comme (en utilisant d'en haut):|t| H0 H0 βi=0
tstats
Nous calculons donc la probabilité d'extrémité supérieure pour obtenir les valeurs nous avons obtenues à partir d'une distribution avec des degrés de liberté égaux aux degrés de liberté résiduels du modèle. Cela représente la probabilité d'obtenir une valeur supérieure aux valeurs absolues des observées . Il est multiplié par 2, car bien sûr, peut également être grand dans le sens négatif.t t t t t
Erreur standard résiduelle
L'erreur standard résiduelle est une estimation du paramètre . L'hypothèse des moindres carrés ordinaires est que les résidus sont décrits individuellement par une distribution gaussienne (normale) avec une moyenne 0 et un écart type . Le rapporte à l'hypothèse de la variance constante; chaque résidu a la même variance et cette variance est égale à .σ σ σ σ2
ajustéR2
ajusté est calculé comme suit:R2
Le ajusté est la même chose que le , mais ajusté pour la complexité (c'est-à-dire le nombre de paramètres) du modèle. Étant donné un modèle avec un seul paramètre, avec un certain , si on ajoute un autre paramètre à ce modèle, le du nouveau modèle doit augmenter, même si le paramètre ajouté n'a pas de puissance statistique. Le ajusté en tient compte en incluant le nombre de paramètres dans le modèle.R2 R2 R2 R2 R2
Le est le rapport de deux variances ( ), la variance expliquée par les paramètres du modèle (somme des carrés de régression, SSR) et la variance résiduelle ou non expliquée (somme des carrés d'erreur, SSE). Vous pouvez mieux voir cela si nous obtenons la table ANOVA du modèle via :F SSR/SSE
anova()
Les s sont les mêmes dans la sortie ANOVA et dans la sortie. La colonne contient les deux variances et . Nous pouvons calculer la probabilité d'obtenir un si grand sous l'hypothèse nulle d'absence d'effet, à partir d'une distribution avec 1 et 148 degrés de liberté. C'est ce qui est rapporté dans la dernière colonne du tableau ANOVA. Dans le cas simple d’un prédicteur continu unique (selon votre exemple), , c’est pourquoi les valeurs p sont identiques. Cette équivalence n'est valable que dans ce cas simple.F 3,7945 / 0,1666 = 22,91 F F F = t 2 P e t a l . W i d t h3.7945/0.1656=22.91 F F F=t2Petal.Width
summary(mod)
Mean Sq
la source
Ronen Israel et Adrienne Ross (AQR) ont rédigé un très bel article sur ce sujet: Mesure de l'exposition aux facteurs: utilisations et abus .
Pour résumer (voir: p. 8),
Le
lm()
résumé de R calcule la valeur pPr(>|t|)
. Plus la valeur p est petite, plus le facteur est significatif. La valeur de p = 0,05 est un seuil raisonnable.la source