Statistiques et Big Data

11
Dans quelle mesure est-il défendable de choisir

Lorsque je détermine mon lambda par validation croisée, tous les coefficients deviennent nuls. Mais j'ai quelques indices dans la littérature que certains des prédicteurs devraient définitivement affecter le résultat. Est-ce une foutaise de choisir arbitrairement lambda pour qu'il y ait autant de...

11
Ridge et LASSO ont une structure de covariance?

Après avoir lu le chapitre 3 des Éléments de l'apprentissage statistique (Hastie, Tibshrani & Friedman), je me suis demandé s'il était possible de mettre en œuvre les fameuses méthodes de rétrécissement citées sur le titre de cette question étant donné une structure de covariance, c'est-à-dire...

11
Paramètre de dispersion dans la sortie GLM

J'ai exécuté un glm dans R, et près du bas de la summary()sortie, il indique (Dispersion parameter for gaussian family taken to be 28.35031) J'ai fait quelques recherches sur Google et j'ai appris que le paramètre de dispersion est utilisé pour ajuster les erreurs standard. J'espère que quelqu'un...

11
Résidus de Schoenfeld

Dans un modèle de risques proportionnels de Cox avec de nombreuses variables, si les résidus de Schoenfeld ne sont pas plats pour l'une des variables, cela invalide-t-il le modèle entier ou peut-on simplement ignorer la variable peu performante? C'est-à-dire, interpréter les coefficients pour les...

11
De bons livres sur l'exploration de texte?

Salut, je voulais savoir s'il y avait de bons livres sur l'exploration de texte et la classification avec quelques études de cas?. Sinon, certains articles / revues accessibles au public feraient l'affaire. S'ils illustrent encore mieux leurs exemples avec R. Je ne cherche pas un manuel étape par...