Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?
> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))
Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
Min 1Q Median 3Q Max
-4.1470 -1.6217 -0.8971 1.2445 6.0516
(Dispersion Parameter for gaussian family taken to be 6.6717)
Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294
Number of Local Scoring Iterations: 2
Anova for Parametric Effects
Df Sum Sq Mean Sq F value Pr(>F)
lo(wt) 1.0 847.73 847.73 127.06 1.239e-11 ***
Residuals 26.6 177.47 6.67
r
degrees-of-freedom
gam
machine-learning
pca
lasso
probability
self-study
bootstrap
expected-value
regression
machine-learning
linear-model
probability
simulation
random-generation
machine-learning
distributions
svm
libsvm
classification
pca
multivariate-analysis
feature-selection
archaeology
r
regression
dataset
simulation
r
regression
time-series
forecasting
predictive-models
r
mean
sem
lavaan
machine-learning
regularization
regression
conv-neural-network
convolution
classification
deep-learning
conv-neural-network
regression
categorical-data
econometrics
r
confirmatory-factor
scale-invariance
self-study
unbiased-estimator
mse
regression
residuals
sampling
random-variable
sample
probability
random-variable
convergence
r
survival
weibull
references
autocorrelation
hypothesis-testing
distributions
correlation
regression
statistical-significance
regression-coefficients
univariate
categorical-data
chi-squared
regression
machine-learning
multiple-regression
categorical-data
linear-model
pca
factor-analysis
factor-rotation
classification
scikit-learn
logistic
p-value
regression
panel-data
multilevel-analysis
variance
bootstrap
bias
probability
r
distributions
interquartile
time-series
hypothesis-testing
normal-distribution
normality-assumption
kurtosis
arima
panel-data
stata
clustered-standard-errors
machine-learning
optimization
lasso
multivariate-analysis
ancova
machine-learning
cross-validation
Haitao Du
la source
la source
Réponses:
Les degrés de liberté ne sont pas des nombres entiers dans un certain nombre de contextes. En effet, dans quelques circonstances, vous pouvez établir que les degrés de liberté pour ajuster les données pour certains modèles particuliers doivent être compris entre une valeur et .k k + 1
Nous considérons généralement les degrés de liberté comme le nombre de paramètres libres, mais il y a des situations où les paramètres ne sont pas complètement libres et ils peuvent alors être difficiles à compter. Cela peut se produire lors du lissage / régularisation, par exemple.
Les cas de méthodes de régression / noyau pondérées localement et de splines de lissage sont des exemples d'une telle situation - un nombre total de paramètres libres n'est pas quelque chose que vous pouvez facilement compter en additionnant des prédicteurs, donc une idée plus générale des degrés de liberté est nécessaire.
Dans les modèles additifs généralisés sur lesquelsy^= A y tr( A ) tr( A AT) tr( 2 A - A AT) tr( A ) X UNE
gam
repose en partie, Hastie et Tibshirani (1990) [1] (et en effet dans de nombreuses autres références) pour certains modèles où l'on peut écrire , les degrés de liberté sont parfois considérés comme (ils discutent également de ou ). La première est cohérente avec l'approche plus habituelle où les deux fonctionnent (par exemple en régression, où dans des situations normales sera la dimension de colonne de ), mais quand est symétrique et idempotent, les trois les formules sont les mêmes.[Je n'ai pas cette référence à portée de main pour vérifier suffisamment de détails; une alternative des mêmes auteurs (plus Friedman) qui est facile à trouver est Elements of Statistical Learning [2]; voir par exemple l'équation 5.16, qui définit les degrés de liberté effectifs d'une spline de lissage comme (dans ma notation)]tr( A )
Plus généralement encore, Ye (1998) [3] a défini les degrés de liberté généralisés comme , qui est la somme des sensibilités des valeurs ajustées à leurs observations correspondantes. À son tour, cela est cohérent avec où cette définition fonctionne. Pour utiliser la définition de Ye, vous devez seulement être en mesure de calculer et de perturber légèrement les données (afin de calculer numériquement). Cela le rend très largement applicable.∑je∂y^je∂yje tr( A ) y^ ∂y^je∂yje
Pour des modèles comme ceux ajustés par
gam
, ces différentes mesures ne sont généralement pas entières.(Je recommande fortement de lire la discussion de ces références sur cette question, bien que l'histoire puisse devenir plus compliquée dans certaines situations. Voir, par exemple [4])
[1] Hastie, T. et Tibshirani, R. (1990),
Generalized Additive Models
London: Chapman et Hall.
[2] Hastie, T., Tibshirani, R. et Friedman, J. (2009),
The Elements of Statistical Learning: Data Mining, Inference, and Prediction , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/
[3] Ye, J. (1998),
"On Measuring and Correcting the Effects of Data Mining and Model Selection"
Journal of the American Statistical Association , Vol. 93, n ° 441, pp 120-131
[4] Janson, L., Fithian, W. et Hastie, T. (2013),
«Degrés de liberté effectifs: une métaphore erronée»
https://arxiv.org/abs/1312.7851
la source