Statistiques et Big Data

12
Bayesian vs MLE, problème de surajustement

Dans le livre de Bishop's PRML, il dit que le sur-ajustement est un problème avec l'estimation de maximum de vraisemblance (MLE), et que le bayésien peut l'éviter. Mais je pense que le sur-ajustement est un problème plus lié à la sélection du modèle, pas à la méthode utilisée pour faire...

12
Test exact de Fisher et distribution hypergéométrique

Je voulais mieux comprendre le test exact du pêcheur, j'ai donc imaginé l'exemple de jouet suivant, où f et m correspond à l'homme et à la femme, et n et y correspond à la "consommation de soda" comme ceci: > soda_gender f m n 0 5 y 5 0 Évidemment, c'est une simplification drastique, mais je ne...

12
Meilleures pratiques pour créer des «données bien rangées»

Hadley Wickham a écrit un article stellaire intitulé "Tidy Data" ( lien ) dans JSS l'année dernière sur la manipulation des données et la mise en état "optimal" des données afin d'effectuer une analyse. Cependant, je me demandais quelles étaient les meilleures pratiques en termes de présentation de...

12
Statistiques de pizza pour les masses

Une brève entrée sur le site Web du NY Times fournit les faits et chiffres de la consommation de pizza aux États-Unis. J'ai un intérêt occasionnel dans la façon dont les statistiques sont utilisées (ou utilisées abusivement) pour fournir des informations au grand public, et quelques questions se...

12
Inversion des baies

J'ai un grand ensemble de données de marché agrégées sur les ventes de vin aux États-Unis et je voudrais estimer la demande de certains vins de haute qualité. Ces parts de marché sont essentiellement dérivées d'un modèle d'utilité aléatoire de la forme où inclut les caractéristiques de produit...

12
Pouvez-vous comparer différentes méthodes de clustering sur un ensemble de données sans vérité de fond par validation croisée?

Actuellement, j'essaie d'analyser un ensemble de données de document texte qui n'a aucune vérité fondamentale. On m'a dit que vous pouvez utiliser la validation croisée k-fold pour comparer différentes méthodes de clustering. Cependant, les exemples que j'ai vus dans le passé utilisent une vérité...

12
Vous avez du mal à trouver un bon modèle adapté aux données de comptage avec des effets mixtes - ZINB ou autre chose?

J'ai un très petit ensemble de données sur l'abondance des abeilles solitaires que j'ai du mal à analyser. Ce sont des données de comptage, et presque tous les comptages sont dans un traitement avec la plupart des zéros dans l'autre traitement. Il existe également quelques valeurs très élevées (une...