Statistiques et Big Data

12
Analyse résiduelle de régression logistique

Cette question est en quelque sorte générale et de longue haleine, mais veuillez me supporter. Dans mon application, j'ai de nombreux jeux de données, chacun composé de ~ 20 000 points de données avec ~ 50 fonctionnalités et d'une seule variable binaire dépendante. J'essaie de modéliser les...

12
Qu'est-ce que la correction de biais? [fermé]

Fermé . Cette question a besoin de détails ou de clarté . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Ajoutez des détails et clarifiez le problème en modifiant ce message . Fermé il y a 4 ans . J'ai vu de nombreux endroits où ils ont des ensembles de données...

12
Quelles sont les normes

J'ai vu beaucoup d'articles sur les représentations clairsemées récemment, et la plupart d'entre eux utilisent la norme et font une certaine minimisation. Ma question est, quelle est la norme et la norme mixte ? Et comment sont-ils pertinents pour la

12
Comment réduire le nombre d'articles en utilisant conjointement l'analyse factorielle, la cohérence interne et la théorie de la réponse des articles?

Je suis en train de développer empiriquement un questionnaire et j'utiliserai des nombres arbitraires dans cet exemple pour illustrer. Pour le contexte, je développe un questionnaire psychologique visant à évaluer les schémas de pensée couramment identifiés chez les personnes souffrant de troubles...

12
PCA et forêts aléatoires

Pour un récent concours Kaggle, j'ai (manuellement) défini 10 fonctionnalités supplémentaires pour mon ensemble d'entraînement, qui seraient ensuite utilisées pour former un classificateur de forêts aléatoires. J'ai décidé d'exécuter PCA sur l'ensemble de données avec les nouvelles fonctionnalités,...

12
SVD d'une matrice avec des valeurs manquantes

Supposons que j'ai une matrice de recommandations de style Netflix et que je souhaite créer un modèle qui prédit les futures classifications de films potentielles pour un utilisateur donné. En utilisant l'approche de Simon Funk, on utiliserait la descente de gradient stochastique pour minimiser la...

12
Recherche des valeurs ajustées et prédites pour un modèle statistique

Disons que j'ai les données suivantes et que j'utilise un modèle de régression: df=data.frame(income=c(5,3,47,8,6,5), won=c(0,0,1,1,1,0), age=c(18,18,23,50,19,39), home=c(0,0,1,0,0,1)) D'une part, je lance un modèle linéaire pour prédire le revenu: md1 = lm(income ~ age + home + home, data=df)...

12
modèles bayésiens hiérarchiques vs Bayes empiriques

Considérez-vous le HBM vs EB comme deux alternatives dans lesquelles les hyperparamètres sont "dans le jeu" d'être échantillonnés / estimés / etc.? Il y a clairement un lien entre ces deux. Considérez-vous HBM plus "pleinement bayésien" qu'EB? Y a-t-il un endroit où je peux voir quelles sont les...