Est-ce que dans la standardisation la variance est connue alors que dans la studentisation elle n'est pas connue et donc estimée? Je vous remercie.
standardization
58485362
la source
la source
Réponses:
Un petit récapitulatif. Étant donné un modèle , où est , et , où est la "matrice chapeau". Les résidus sont La variance de la population est inconnue et peut être estimée par MSE , l'erreur quadratique moyenne.X n × p β = ( X ' X ) - 1 X ' y y = X β = X ( X ' X ) - 1 X ' Y = H y H = X ( X ' X ) - 1 X ' e = y -y= Xβ+ ε X n × p β^= ( X′X)- 1X′y y^= Xβ^= X( X′X)- 1X′y= Hy H= X( X′X)- 1X′ σ2MSE
Les résidus semi-étudiés sont définis comme
Les résidus standardisés , également appelés résidus étudiés en interne , sont:
Cependant, l'unique et sont pas indépendants, donc ne peut pas avoir une distribution . La procédure consiste ensuite à supprimer la ème observation, à ajuster la fonction de régression aux observations restantes et à obtenir de nouveaux qui peuvent être notés par . La différence: est appelée résiduel supprimé . Une expression équivalente qui ne nécessite pas de recalcul est: désignant les nouveaux et par et M S E r i t i n - 1 y y i ( i ) D i = y i - y i ( i ) d i = e ieje MSE rje t je n−1 y^ y^i(i)
Voir Kutner et al., Modèles statistiques linéaires appliqués , chapitre 10.
Edit: je dois dire que la réponse de rpierce est parfaite. Je pensais que l'OP était sur le point normalisé et studentisés résidus (et en divisant par l'écart - type de la population pour obtenir les résidus standardisés avaient l' air étrange pour moi, bien sûr), mais je me trompais. J'espère que ma réponse pourra aider quelqu'un même si OT.
la source
En sciences sociales, on dit généralement que les scores de Student utilisent le calcul de Student / Gosset pour estimer la variance / l'écart type de la population à partir de la variance / écart ( ) standard de l'échantillon . En revanche, les scores standardisés (un nom, un type particulier de statistique, le score Z) utiliseraient l'écart type de la population? ( ).σs σ
Cependant, il semble qu'il existe des différences terminologiques entre les domaines (veuillez consulter les commentaires sur cette réponse). Par conséquent, il faut procéder avec prudence en faisant ces distinctions. De plus, les scores studentisés sont rarement appelés tels et on voit généralement les valeurs «studentisées» dans le contexte de la régression. @Sergio fournit des détails sur ces types de résidus supprimés studentisés dans sa réponse.
la source
Je suis très en retard pour répondre à cette question !!. Mais je n'ai pas pu trouver la réponse dans un langage très simple, donc humble tentative de répondre à cela.
Pourquoi nous faisons la standardisation? Imaginez que vous ayez deux modèles: l'un prédit la folie du temps passé à étudier les statistiques tandis que les autres prédisent la journalisation (folie) avec la quantité de temps consacrée aux statistiques.
il serait difficile de comprendre que les résidus sont tous deux dans des unités différentes. Nous les normalisons donc (théorie similaire au score Z)
Résidus normalisés: - Lorsque les résidus sont divisés par une estimation de l'écart type. En général, si la valeur absolue est> 3, c'est une source de préoccupation.
Nous l'utilisons pour étudier les valeurs aberrantes dans le modèle.
Résidu étudiant: Nous l'utilisons pour étudier la stabilité du modèle.
Le processus est simple. Nous supprimons le cas de test individuel du modèle et découvrons la nouvelle valeur prédite. La différence entre la nouvelle valeur et la valeur observée d'origine peut être normalisée en divisant l'erreur standard. cette valeur est Studentized Residual
Pour plus d'informations sur la découverte de la statique à l'aide de R - http://www.statisticshell.com/html/dsur.html
la source
Wikipedia a une bonne vue d'ensemble sur https://en.wikipedia.org/wiki/Normalization_(statistics) :
Score standard : Normalisation des erreurs lorsque les paramètres de population sont connus. Fonctionne bien pour les populations normalement répartiesX−μσ
Statistique t de Student : normalisation des résidus lorsque les paramètres de population sont inconnus (estimés).X−X¯¯¯¯¯s
la source