Statistiques et Big Data

12
randomForest choisit la régression au lieu de la classification

J'utilise le package randomForest dans R et j'utilise les données d'iris, la forêt aléatoire générée est une classification mais lorsque j'utilise un ensemble de données avec environ 700 entités (les entités sont chaque pixel dans une image de 28 x 28 pixels) et la colonne d'étiquette est nommée...

12
Sélection du modèle PCA avec AIC (ou BIC)

Je souhaite utiliser le critère d'information Akaike (AIC) pour choisir le nombre approprié de facteurs à extraire dans une ACP. Le seul problème est que je ne sais pas comment déterminer le nombre de paramètres. Considérons une matrice X , où N représente le nombre de variables et T le nombre...

12
Une mesure robuste (non paramétrique) comme le coefficient de variation - IQR / médiane, ou alternative?

Pour un ensemble de données donné, l'écart est souvent calculé soit comme l'écart type, soit comme l'IQR (intervalle inter-quartile). Alors que a standard deviationest normalisé (z-scores, etc.) et peut donc être utilisé pour comparer la propagation de deux populations différentes, ce n'est pas le...

12
Désaisonnalisation des données de comptage

J'ai utilisé stl () dans R pour décomposer les données de comptage en composantes de tendance, saisonnières et irrégulières. Les valeurs de tendance résultantes ne sont plus des nombres entiers. J'ai les questions suivantes: Stl () est-il un moyen approprié de désaisonnaliser les données de...

12
Les solutions PCA sont-elles uniques?

Lorsque j'exécute PCA sur un certain ensemble de données, la solution qui m'est donnée est-elle unique? C'est-à-dire que j'obtiens un ensemble de coordonnées 2d, basé sur des distances entre points. Est-il possible de trouver au moins une autre disposition des points qui répondrait à ces...