Statistiques et Big Data

10
Existe-t-il un moyen d'utiliser la validation croisée pour effectuer une sélection de variable / fonctionnalité dans R?

J'ai un ensemble de données avec environ 70 variables que j'aimerais réduire. Ce que je cherche à faire, c'est d'utiliser CV pour trouver les variables les plus utiles de la manière suivante. 1) Sélectionnez au hasard disons 20 variables. 2) Utilisez stepwise/ LASSO/ lars/ etc pour choisir les...

10
Valeurs manquantes dans la variable de réponse dans JAGS

Gelman & Hill (2006) disent: Dans Bugs, les résultats manquants dans une régression peuvent être facilement gérés en incluant simplement le vecteur de données, les NA et tout. Les bogues modélisent explicitement la variable de résultat, et il est donc trivial d'utiliser ce modèle pour, en e ff...

10
Explication de la simulation statistique

Je ne suis pas statisticien. Alors, veuillez supporter mes erreurs, le cas échéant. Pourriez-vous expliquer de manière simple comment se fait la simulation? Je sais qu'il prend un échantillon aléatoire dans une distribution normale et sert à la simulation. Mais, ne comprends pas...

10
Intervalle de confiance pour le chi carré

J'essaie de trouver une solution pour comparer deux tests de "qualité d'ajustement du chi carré". Plus précisément, je veux comparer les résultats de deux expériences indépendantes. Dans ces expériences, les auteurs ont utilisé le khi carré de l'ajustement pour comparer les suppositions aléatoires...

10
Aide à la modélisation SEM (OpenMx, polycor)

J'ai beaucoup de problèmes avec un ensemble de données auquel j'essaie d'appliquer SEM. Nous supposons l'existence de 5 facteurs latents A, B, C, D, E, avec des indicateurs resp. A1 à A5 (facteurs ordonnés), B1 à B3 (quantitatifs), C1, D1, E1 (tous les trois derniers facteurs ordonnés, avec...

10
Nettoyage automatique des données

Un problème courant est que le ML est la mauvaise qualité des données: erreurs dans les valeurs des entités, instances mal classées, etc., etc. Une façon de résoudre ce problème consiste à parcourir manuellement les données et à vérifier, mais existe-t-il d'autres techniques? (Je parie qu'il y en...