Statistiques et Big Data

24
comment représenter la géographie ou le code postal dans un modèle d'apprentissage automatique ou un système de recommandation?

Je construis un modèle et je pense que la situation géographique est susceptible d'être très bonne pour prédire ma variable cible. J'ai le code postal de chacun de mes utilisateurs. Je ne suis pas tout à fait sûr de la meilleure façon d'inclure le code postal comme fonctionnalité de prédiction dans...

24
Exemples d'ACP où les PC à faible variance sont «utiles»

Normalement, dans l'analyse en composantes principales (ACP), les premiers PC sont utilisés et les PC à faible variance sont abandonnés, car ils n'expliquent pas beaucoup la variation des données. Cependant, existe-t-il des exemples où les PC à faible variation sont utiles (c'est-à-dire qu'ils ont...

24
Lasso bayésien vs lasso ordinaire

Différents logiciels d'implémentation sont disponibles pour le lasso . Je sais que beaucoup de choses ont été discutées entre l'approche bayésienne et l'approche fréquentiste dans différents forums. Ma question est très spécifique au lasso - Quelles sont les différences ou les avantages du lasso...

24
Que sont les «coefficients aliasés»?

Lors de la construction d'un modèle de régression dans R ( lm), je reçois fréquemment ce message "there are aliased coefficients in the model" Qu'est-ce que ça veut dire exactement? En outre, à cause de cela, predict()donne également un avertissement. Bien que ce ne soit qu'un avertissement, je...

24
Pourquoi lambda «dans une erreur standard du minimum» est-il une valeur recommandée pour lambda dans une régression nette élastique?

Je comprends le rôle que joue lambda dans une régression élastique-nette. Et je peux comprendre pourquoi on sélectionnerait lambda.min, la valeur de lambda qui minimise l'erreur de validation croisée. Ma question est: où dans la littérature statistique est-il recommandé d'utiliser lambda.1se,...