Statistiques et Big Data

42
Pourquoi sous-échantillonner?

Supposons que je veuille apprendre un classificateur qui prédit si un courrier électronique est un spam. Et supposons que seulement 1% des emails sont du spam. La chose la plus simple à faire serait d'apprendre le classificateur trivial qui dit qu'aucun des courriels n'est du spam. Ce...

41
Pourquoi l’âge médian est-il meilleur que l’âge moyen?

Si vous regardez Wolfram Alpha Ou cette page Wikipedia Liste des pays par âge médian Clairement, la médiane semble être la statistique de choix en ce qui concerne les âges. Je ne suis pas capable de m'expliquer pourquoi la moyenne arithmétique serait une statistique pire. Pourquoi est-ce?...

41
Régression: Transformer les variables

Lorsque vous transformez des variables, devez-vous utiliser la même transformation? Par exemple, puis-je choisir et choisir des variables transformées différemment, comme dans: Soit, l'âge, la durée de l'emploi, la durée de résidence et le revenu.X1, x2, x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) +...

41
En quoi les scores de propension sont-ils différents de l’addition de covariables dans une régression et quand sont-ils préférés à cette dernière?

J'admets que je suis relativement nouveau dans les scores de propension et l'analyse causale. Une chose qui ne me semble pas évident en tant que nouveau venu est de savoir en quoi l’équilibrage à l’aide des scores de propension est mathématiquement différent de ce qui se produit lorsque nous...

41
Régression logistique en R (rapport de cotes)

J'essaie d'entreprendre une analyse de régression logistique en format R. J'ai suivi des cours sur ce matériel avec STATA. Je trouve très difficile de reproduire la fonctionnalité dans R. Est-il mature dans ce domaine? Il semble y avoir peu de documentation ou de conseils disponibles. La production...

41
OpenBugs contre JAGS

Je suis sur le point d'essayer un environnement de type BUGS pour estimer les modèles bayésiens. Y at-il des avantages importants à considérer dans le choix entre OpenBugs ou JAGS? L'un est-il susceptible de remplacer l'autre dans un avenir prévisible? Je vais utiliser le sampler choisi avec Gibbs...