Questions marquées «missing-data»

15
Quelle est l'intuition derrière les échantillons échangeables sous l'hypothèse nulle?

Les tests de permutation (également appelés test de randomisation, test de re-randomisation ou test exact) sont très utiles et s'avèrent utiles lorsque l'hypothèse de distribution normale requise par exemple t-testn'est pas remplie et lorsque la transformation des valeurs par classement des un test...

15
La précision de la machine augmentant le gradient diminue à mesure que le nombre d'itérations augmente

J'expérimente l'algorithme de la machine de renforcement de gradient via le caretpackage en R. À l'aide d'un petit ensemble de données d'admission à l'université, j'ai exécuté le code suivant: library(caret) ### Load admissions dataset. ### mydata <-

14
Puis-je reconstruire une distribution normale à partir de la taille de l'échantillon et des valeurs min et max? Je peux utiliser le point médian pour représenter la moyenne

Je sais que cela pourrait être un peu compliqué, statistiquement, mais c'est mon problème. J'ai beaucoup de données de plage, c'est-à-dire la taille minimum, maximum et échantillon d'une variable. Pour certaines de ces données, j'ai également une moyenne, mais pas beaucoup. Je veux comparer ces...

12
Comment effectuer l'imputation de valeurs dans un très grand nombre de points de données?

J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1,...

12
80% des données manquantes dans une seule variable

Il y a une variable dans mes données qui ont 80% de données manquantes. Les données sont manquantes en raison de leur inexistence (c'est-à-dire du montant du prêt bancaire que l'entreprise doit). Je suis tombé sur un article disant que la méthode d'ajustement variable factice est la solution à ce...

12
Techniques de traitement des données incomplètes / manquantes

Ma question porte sur les techniques de traitement des données incomplètes lors de la formation / ajustement du classificateur / modèle. Par exemple, dans un ensemble de données avec quelques centaines de lignes, chaque ligne ayant disons cinq dimensions et une étiquette de classe comme dernier...

11
R / mgcv: Pourquoi les produits tenseurs te () et ti () produisent-ils des surfaces différentes?

Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne...

11
Comment gérer les données inexistantes (non manquantes)?

Je n'ai jamais vraiment trouvé de bon texte ou d'exemples sur la façon de gérer les données «inexistantes» pour les entrées de n'importe quel classificateur. J'ai beaucoup lu sur les données manquantes mais que peut-on faire sur les données qui ne peuvent pas exister ou qui n'existent pas par...