J'ai analysé un ensemble de données d'environ 400k enregistrements et 9 variables La variable dépendante est binaire. J'ai ajusté une régression logistique, un arbre de régression, une forêt aléatoire et un arbre boosté par gradient. Tous donnent des valeurs d'ajustement virtuellement identiques lorsque je les valide sur un autre ensemble de données.
Pourquoi cela est-il ainsi? Je suppose que c'est parce que mes observations sur le rapport variable sont si élevées. Si cela est correct, à quel rapport observation / variable les différents modèles commenceront-ils à donner des résultats différents?
la source
il vaut également la peine de regarder les erreurs de formation.
fondamentalement, je ne suis pas d'accord avec votre analyse. si la régression logistique, etc. donne tous les mêmes résultats, cela suggérerait que le «meilleur modèle» est très simple (que tous les modèles peuvent s'adapter aussi bien - par exemple, fondamentalement linéaire).
Alors, la question pourrait être pourquoi le meilleur modèle est-il un modèle simple?: Cela pourrait suggérer que vos variables ne sont pas très prédictives. Son bien sûr difficile à analyser sans connaître les données.
la source
Comme l'a suggéré @ seanv507, des performances similaires peuvent simplement être dues au fait que les données sont mieux séparées par un modèle linéaire. Mais en général, l'affirmation selon laquelle le «rapport observations / variables est si élevé» est incorrecte. Même si votre rapport entre la taille de l'échantillon et le nombre de variables atteint l'infini, vous ne devez pas vous attendre à ce que les différents modèles fonctionnent de manière presque identique, à moins qu'ils n'offrent tous le même biais prédictif.
la source
Je pense que cette explication est parfaitement logique.
Cela dépendra probablement beaucoup de vos données spécifiques (par exemple, même si vos neuf variables sont continues, facteurs, ordinaires ou binaires), ainsi que des décisions de réglage que vous avez prises lors de l'ajustement de votre modèle.
Mais vous pouvez jouer avec le rapport observation / variable - non pas en augmentant le nombre de variables, mais en diminuant le nombre d'observations. Tirez au hasard 100 observations, ajustez les modèles et voyez si différents modèles donnent des résultats différents. (Je suppose que oui.) Faites-le plusieurs fois avec différents échantillons tirés de votre nombre total d'observations. Regardez ensuite des sous-échantillons de 1 000 observations ... 10 000 observations ... et ainsi de suite.
la source