Pourquoi plusieurs types de modèles pourraient-ils donner des résultats presque identiques?

10

J'ai analysé un ensemble de données d'environ 400k enregistrements et 9 variables La variable dépendante est binaire. J'ai ajusté une régression logistique, un arbre de régression, une forêt aléatoire et un arbre boosté par gradient. Tous donnent des valeurs d'ajustement virtuellement identiques lorsque je les valide sur un autre ensemble de données.

Pourquoi cela est-il ainsi? Je suppose que c'est parce que mes observations sur le rapport variable sont si élevées. Si cela est correct, à quel rapport observation / variable les différents modèles commenceront-ils à donner des résultats différents?

JenSCDC
la source

Réponses:

7

Cela signifie que quelle que soit la méthode que vous utilisez, vous êtes en mesure de vous rapprocher raisonnablement de la règle de décision optimale (alias la règle de Bayes ). Les raisons sous-jacentes ont été expliquées dans "Elements of Statistical Learning" de Hastie, Tibshirani et Friedman . Ils ont démontré comment les différentes méthodes fonctionnent en comparant les Figs. 2.1, 2.2, 2.3, 5.11 (dans ma première édition - dans la section sur les splines multidimensionnelles), 12.2, 12.3 (supportent les machines vectorielles), et probablement quelques autres. Si vous n'avez pas lu ce livre, vous devez tout déposer MAINTENANT et le lire. (Je veux dire, cela ne vaut pas la peine de perdre votre emploi, mais cela vaut la peine de manquer un ou deux devoirs si vous êtes étudiant.)

Je ne pense pas que le rapport observations / variable soit l'explication. À la lumière de ma justification présentée ci-dessus, c'est la forme relativement simple de la frontière séparant vos classes dans l'espace multidimensionnel que toutes les méthodes que vous avez essayées ont pu identifier.

StasK
la source
Je vais demander à mon patron si je peux faire payer l'entreprise.
JenSCDC
1
ESL est «gratuit» en tant que pdf à partir de leur page d'accueil ... vaut également le téléchargement est ISL (par plusieurs des mêmes auteurs) - plus pratique www-bcf.usc.edu/~gareth/ISL
seanv507
4

il vaut également la peine de regarder les erreurs de formation.

fondamentalement, je ne suis pas d'accord avec votre analyse. si la régression logistique, etc. donne tous les mêmes résultats, cela suggérerait que le «meilleur modèle» est très simple (que tous les modèles peuvent s'adapter aussi bien - par exemple, fondamentalement linéaire).

Alors, la question pourrait être pourquoi le meilleur modèle est-il un modèle simple?: Cela pourrait suggérer que vos variables ne sont pas très prédictives. Son bien sûr difficile à analyser sans connaître les données.

seanv507
la source
1

Comme l'a suggéré @ seanv507, des performances similaires peuvent simplement être dues au fait que les données sont mieux séparées par un modèle linéaire. Mais en général, l'affirmation selon laquelle le «rapport observations / variables est si élevé» est incorrecte. Même si votre rapport entre la taille de l'échantillon et le nombre de variables atteint l'infini, vous ne devez pas vous attendre à ce que les différents modèles fonctionnent de manière presque identique, à moins qu'ils n'offrent tous le même biais prédictif.

bogatron
la source
Je viens d'éditer ma question pour ajouter que la variable dépendante est binaire. Par conséquent, un modèle linéaire ne convient pas.
JenSCDC
"vous ne devez pas vous attendre à ce que différents modèles fonctionnent de manière presque identique, à moins qu'ils n'offrent tous le même biais prédictif." J'ai utilisé le MAE et le rapport des résultats réels aux résultats prévus comme mesures de validation et les ratios étaient très proches.
JenSCDC
1
Andy, j'inclurais la régression logistique (et SVM linéaire) comme modèle «linéaire». Ils ne font que séparer les données par une somme pondérée des entrées.
seanv507
1
@ seanv507 Exactement - la frontière de décision est toujours linéaire. Le fait que la classification binaire soit effectuée ne change rien à cela.
bogatron
Et les arbres? Ils ne me semblent vraiment pas linéaires.
JenSCDC
0

Je suppose que c'est parce que mes observations sur le rapport variable sont si élevées.

Je pense que cette explication est parfaitement logique.

Si cela est correct, à quel rapport observation / variable les différents modèles commenceront-ils à donner des résultats différents?

Cela dépendra probablement beaucoup de vos données spécifiques (par exemple, même si vos neuf variables sont continues, facteurs, ordinaires ou binaires), ainsi que des décisions de réglage que vous avez prises lors de l'ajustement de votre modèle.

Mais vous pouvez jouer avec le rapport observation / variable - non pas en augmentant le nombre de variables, mais en diminuant le nombre d'observations. Tirez au hasard 100 observations, ajustez les modèles et voyez si différents modèles donnent des résultats différents. (Je suppose que oui.) Faites-le plusieurs fois avec différents échantillons tirés de votre nombre total d'observations. Regardez ensuite des sous-échantillons de 1 000 observations ... 10 000 observations ... et ainsi de suite.

Stephan Kolassa
la source
1
Hm pourquoi est-ce? plus d'observations semblent augmenter les chances que la frontière de décision soit plus complexe - c'est-à-dire certainement pas linéaire. Et ces modèles font des choses différentes dans des cas complexes, et ont tendance à faire de même dans des cas simples.
Sean Owen
@SeanOwen: Je pense que je ne comprends pas votre commentaire. À quelle partie de ma réponse «pourquoi est-ce» fait-il référence? Le PO n'a rien dit sur l'utilisation des limites de décision linéaires - après tout, il pourrait le faire en transformant les prédicteurs d'une manière ou d'une autre.
Stephan Kolassa
Pourquoi plus d'observations obligeraient-elles des classificateurs différents à prendre des décisions plus similaires? mon intuition est le contraire. Oui, je ne pense pas à des limites de décision uniquement linéaires. Plus la limite optimale est complexe, moins ils sont susceptibles de correspondre à quelque chose de similaire à cette limite. Et la frontière a tendance à être plus complexe avec plus d'observations.
Sean Owen