Quand devrions-nous discrétiser / classer les variables / fonctionnalités indépendantes et quand ne le devrions-nous pas?
Mes tentatives pour répondre à la question:
- En général, nous ne devons pas bin, car le binning perdra des informations.
- Le binning augmente en fait le degré de liberté du modèle, il est donc possible de provoquer un sur-ajustement après le binning. Si nous avons un modèle à «biais élevé», le binning n'est peut-être pas mauvais, mais si nous avons un modèle à «forte variance», nous devons éviter le binning.
- Cela dépend du modèle que nous utilisons. S'il s'agit d'un mode linéaire et que les données ont beaucoup de probabilités de binning "aberrantes", c'est mieux. Si nous avons un modèle d'arbre, les valeurs aberrantes et le regroupement feront trop de différence.
Ai-je raison? et quoi d'autre?
Je pensais que cette question devrait être posée plusieurs fois mais je ne la trouve pas dans le CV uniquement ces messages
Faut-il regrouper des variables continues?
Quel est l'avantage de briser une variable prédictive continue?
Réponses:
On dirait que vous cherchez également une réponse d'un point de vue prédictif, j'ai donc préparé une courte démonstration de deux approches dans R
Ci-dessous, j'ai donné le code d'une fonction qui comparera automatiquement les deux méthodes pour une fonction de signal vraie donnée
Cette fonction créera des ensembles de données d'apprentissage et de test bruyants à partir d'un signal donné, puis adaptera une série de régressions linéaires aux données d'entraînement de deux types
cuts
modèle comprend des prédicteurs regroupés, formés en segmentant la plage des données en intervalles à moitié ouverts de taille égale, puis en créant des prédicteurs binaires indiquant à quel intervalle chaque point d'apprentissage appartient.splines
modèle comprend une expansion de base de spline cubique naturelle, avec des nœuds également espacés dans toute la plage du prédicteur.Les arguments sont
signal
: Une fonction à une variable représentant la vérité à estimer.N
: Le nombre d'échantillons à inclure dans les données de formation et de test.noise
: La quantité de bruit gaussien aléatoire à ajouter au signal d'entraînement et de test.range
: La plage desx
données de formation et de test , données générées uniformément dans cette plage.max_paramters
: Le nombre maximum de paramètres à estimer dans un modèle. Il s'agit à la fois du nombre maximal de segments dans lecuts
modèle et du nombre maximal de nœuds dans lesplines
modèle.Notez que le nombre de paramètres estimés dans le
splines
modèle est le même que le nombre de nœuds, donc les deux modèles sont assez comparés.L'objet de retour de la fonction a quelques composants
signal_plot
: Un tracé de la fonction du signal.data_plot
: Un nuage de points des données de formation et de test.errors_comparison_plot
: Un graphique montrant l'évolution de la somme des taux d'erreur au carré pour les deux modèles sur une plage du nombre de paramètres estimés.Je vais démontrer avec deux fonctions de signal. Le premier est une onde sinueuse avec une tendance linéaire croissante superposée
Voici comment évoluent les taux d'erreur
Le deuxième exemple est une fonction de noix que je garde juste pour ce genre de chose, tracez-la et voyez
Et pour le plaisir, voici une fonction linéaire ennuyeuse
Tu peux voir ça:
Les splines sont donc toujours à privilégier d'un point de vue prédictif.
Code
Voici le code que j'ai utilisé pour produire ces comparaisons. J'ai tout enveloppé dans une fonction pour que vous puissiez l'essayer avec vos propres fonctions de signal. Vous devrez importer les bibliothèques
ggplot2
andsplines
R.la source
L'agrégation est substantiellement significative (que le chercheur en soit conscient ou non).
Il faut regrouper les données, y compris les variables indépendantes, sur la base des données elles-mêmes lorsque l'on veut:
À la puissance statistique de l'hémorragie.
Pour biaiser les mesures d'association.
Une littérature commençant, je crois, par Ghelke et Biehl (1934 - vaut vraiment la peine d'être lu, et suggérant quelques simulations informatiques assez faciles que l'on peut exécuter pour soi-même), et se poursuivant en particulier dans la littérature sur le `` problème d'unité de surface modifiable '' (Openshaw , 1983; Dudley, 1991; Lee et Kemp, 2000) clarifie ces deux points.
À moins d'avoir une théorie a priori de l' échelle d'agrégation (combien d'unités à agréger) et de la fonction de catégorisation d'agrégation (quelles observations individuelles finiront dans quelles unités d'agrégation), il ne faut pas agréger. Par exemple, en épidémiologie, nous nous soucions de la santé des individus et de la santé des populations . Ces dernières ne sont pas simplement des collections aléatoires des premières, mais définies par exemple par des frontières géopolitiques, des circonstances sociales comme la catégorisation ethnique-raciale, le statut carcéral et les catégories historiques, etc. (voir, par exemple, Krieger, 2012)
Références
Dudley, G. (1991). Échelle, agrégation et problème d'unité de surface modifiable . [muraille payante] The Operational Geographer, 9 (3): 28–33.
Gehlke, CE et Biehl, K. (1934). Certains effets du regroupement sur la taille du coefficient de corrélation dans le matériel des secteurs de recensement . [muraille payante] Journal de l'American Statistical Association , 29 (185): 169-170.
Krieger, N. (2012). Qui et qu'est-ce qu'une «population»? débats historiques, controverses actuelles et implications pour comprendre la «santé de la population» et corriger les inégalités en matière de santé . The Milbank Quarterly , 90 (4): 634–681.
Lee, HTK et Kemp, Z. (2000). Raisonnement hiérarchique et traitement analytique en ligne des données spatiales et temporelles . Dans les actes du 9e Symposium international sur le traitement des données spatiales , Beijing, RP Chine. Union géographique internationale.
Openshaw, S. (1983). Le problème de l'unité de surface modifiable. Concepts et techniques en géographie moderne . Geo Books, Norwich, Royaume-Uni.
la source