Statistiques et Big Data

56
L ’« hybride »entre les approches de Fisher et de Neyman-Pearson en matière de test statistique est-il vraiment un« méli-mélo incohérent »?

Il existe une certaine école de pensée selon laquelle l'approche la plus répandue du test statistique est un "hybride" entre deux approches: celle de Fisher et celle de Neyman-Pearson; La revendication affirme que ces deux approches sont "incompatibles" et que, par conséquent, "hybride" est un...

56
Défis industrie vs Kaggle. Est-ce que collecter plus d'observations et avoir accès à plus de variables est plus important que la modélisation de fantaisie?

J'espère que le titre est explicite. Dans Kaggle, la plupart des gagnants utilisent l’empilement avec parfois des centaines de modèles de base pour réduire au minimum quelques points de pourcentage de MSE, de précision ... En général, selon votre expérience, l’importance de la modélisation...

55
Comprendre la validation croisée stratifiée

Quelle est la différence entre la validation croisée stratifiée et la validation croisée ? Wikipedia dit: Dans la validation croisée des plis en k , les plis sont sélectionnés de sorte que la valeur de réponse moyenne soit approximativement égale dans tous les plis. Dans le cas d'une classification...

55
Test de Wald pour la régression logistique

Autant que je sache, le test de Wald dans le contexte de la régression logistique est utilisé pour déterminer si une certaine variable prédictive est significative ou non. Il rejette l'hypothèse nulle du coefficient correspondant égal à zéro.XXX Le test consiste à diviser la valeur du coefficient...