Statistiques et Big Data

50
Une forêt aléatoire peut-elle être utilisée pour la sélection d’entités dans une régression linéaire multiple?

Puisque RF peut gérer la non-linéarité mais ne peut pas fournir de coefficients, serait-il sage d'utiliser une forêt aléatoire pour rassembler les caractéristiques les plus importantes, puis de les brancher dans un modèle de régression linéaire multiple afin d'obtenir leurs coefficients?...

50
Quelle est l'intuition derrière SVD?

J'ai lu sur la décomposition en valeurs singulières (SVD). Dans presque tous les manuels, il est mentionné que la matrice est divisée en trois matrices avec une spécification donnée. Mais quelle est l'intuition derrière la division de la matrice sous une telle forme? La PCA et d’autres algorithmes...

49
Bootstrap contre jackknife

Les méthodes bootstrap et jackknife peuvent être utilisées pour estimer le biais et l’erreur type d’une estimation et les mécanismes des deux méthodes de ré-échantillonnage ne sont pas très différents: échantillonnage avec remplacement ou omission d’une observation à la fois. Toutefois, le...

49
La «note moyenne» d'Amazon est-elle trompeuse?

Si je comprends bien, les évaluations de livre sur une échelle de 1 à 5 sont des scores de Likert. C'est-à-dire qu'un 3 pour moi peut ne pas être nécessairement un 3 pour quelqu'un d'autre. C'est une échelle ordinale IMO. Il ne faut pas vraiment utiliser les échelles ordinales mais bien prendre le...

49
Temps de calcul aléatoire de la forêt en R

J'utilise le package party en R avec 10 000 lignes et 34 fonctionnalités, et certaines fonctionnalités factorielles comportent plus de 300 niveaux. Le temps de calcul est trop long. (Cela a pris 3 heures jusqu'à présent et ce n'est pas fini.) Je veux savoir quels éléments ont un effet important sur...

48
Quelle est la différence entre NaN et NA?

Je voudrais savoir pourquoi certaines langues comme R ont NA et NaN. Quelles sont les différences ou sont-elles également identiques? Est-il vraiment nécessaire d'avoir