Statistiques et Big Data

20
Faire des statistiques correctes dans un environnement de travail?

Je ne sais pas à quoi appartient cette question: Cross Validated ou The Workplace. Mais ma question est vaguement liée aux statistiques. Cette question (ou je suppose que des questions) a surgi pendant mon travail en tant que "stagiaire en science des données". Je construisais ce modèle de...

20
Existe-t-il une explication intuitive de la raison pour laquelle la régression logistique ne fonctionnera pas pour un cas de séparation parfait? Et pourquoi l'ajout de la régularisation le corrigera?

Nous avons beaucoup de bonnes discussions sur la séparation parfaite dans la régression logistique. Telles que, la régression logistique dans R a conduit à une séparation parfaite (phénomène de Hauck-Donner). Maintenant quoi? et le modèle de régression logistique ne converge pas . Personnellement,...

20
Avantages de l'échantillonnage stratifié par rapport à l'échantillonnage aléatoire pour générer des données de formation dans la classification

Je voudrais savoir s'il y a des avantages / certains à utiliser l'échantillonnage stratifié au lieu de l'échantillonnage aléatoire, lors de la division de l'ensemble de données d'origine en ensemble de formation et de test pour la classification. De plus, l'échantillonnage stratifié introduit-il...

20
Des réseaux bayésiens aux réseaux neuronaux: comment transposer une régression multivariée en un réseau multi-sorties

J'ai affaire à un modèle linéaire hiérarchique bayésien , ici le réseau qui le décrit. YYY représente les ventes quotidiennes d'un produit dans un supermarché (observé). XXX est une matrice connue de régresseurs, y compris les prix, les promotions, le jour de la semaine, la météo, les vacances....