Statistiques et Big Data

11
Comment interpréter les résultats lorsque la crête et le lasso fonctionnent bien séparément mais produisent des coefficients différents

J'utilise un modèle de régression avec Lasso et Ridge (pour prédire une variable de résultat discrète allant de 0 à 5). Avant d'exécuter le modèle, j'utilise la SelectKBestméthode de scikit-learnpour réduire l'ensemble de fonctionnalités de 250 à 25 . Sans sélection initiale des caractéristiques,...

11
Dois-je signaler des résultats non significatifs?

J'ai exécuté un test de Kruskal Wallis, et pour certaines des questions, la valeur p n'est pas significative. Dois-je le signaler de la même manière que s'il était significatif, en indiquant le df, la statistique de test et la valeur de p? Donc, ce serait quelque chose comme ça, un test de Kruskal...

11
Quelle est la perte de poids?

Je commence par l'apprentissage en profondeur, et j'ai une question dont je n'ai pas trouvé la réponse, peut-être que je n'ai pas cherché correctement. J'ai vu cette réponse , mais on ne sait toujours pas quelle est la perte de perte de poids et comment est-elle liée à la fonction de...

11
Flèches des variables sous-jacentes dans le biplot PCA dans R

Au risque de rendre la question spécifique au logiciel, et avec l'excuse de son ubiquité et de ses idiosyncrasies, je veux poser des questions sur la fonction biplot()dans R, et, plus précisément, sur le calcul et le tracé de sa valeur par défaut, des flèches rouges superposées, correspondant aux...

11
Avantages et inconvénients du bootstrapping

Je viens d'apprendre le concept de bootstrap, et une question naïve m'est venue à l'esprit: si nous pouvons toujours générer de nombreux échantillons bootstrap de nos données, pourquoi se donner la peine d'obtenir davantage de données "réelles"? Je pense avoir une explication, dites-moi si j'ai...

11
Poids aléatoire de la forêt et de la classe

Question en une phrase: quelqu'un sait-il comment déterminer les bons poids de classe pour une forêt aléatoire? Explication: je joue avec des jeux de données déséquilibrés. Je veux utiliser le Rpackage randomForestpour former un modèle sur un ensemble de données très asymétrique avec seulement de...

11
L'information mutuelle comme probabilité

Pourrait l'information mutuelle sur l'entropie conjointe: 0≤I(X,Y)H(X,Y)≤10≤I(X,Y)H(X,Y)≤1 0 \leq \frac{I(X,Y)}{H(X,Y)} \leq 1 être défini comme: "La probabilité de transmettre une information de X à Y"? Je suis désolé d'être si naïf, mais je n'ai jamais étudié la théorie de l'information, et...