Statistiques et Big Data

47
Les splines surchargent-elles les données?

Mon problème : j'ai récemment rencontré un statisticien qui m'a informé que les splines ne sont utiles que pour explorer des données et sont sujettes à un surajustement, ce qui n'est donc pas utile pour la prédiction. Il préférait explorer avec des polynômes simples ... Comme je suis un grand fan...

46
Comment calculer le pseudo-

L' écriture de Christopher Manning sur la régression logistique dans R montre une régression logistique dans R comme suit: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Quelques sorties: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows +...