Disons que nous avons un échantillon de deux populations: A
et B
. Supposons que ces populations sont constituées d'individus et nous choisissons de décrire les individus en termes de caractéristiques. Certaines de ces caractéristiques sont catégoriques (par exemple, conduisent-elles au travail?) Et certaines sont numériques (par exemple, leur hauteur). Appelons ces fonctionnalités: . Nous collectons des centaines de ces fonctionnalités (par exemple n = 200), supposons pour plus de simplicité, sans erreur ni bruit sur tous les individus.
Nous supposons que les deux populations sont différentes. Notre objectif est de répondre aux deux questions suivantes:
- Sont-ils réellement différents?
- Qu'est-ce qui est significativement différent entre eux?
Des méthodes comme les arbres de décision (par exemple les forêts aléatoires) et l'analyse de régression linéaire peuvent aider. Par exemple, on pourrait examiner l'importance des caractéristiques dans les forêts aléatoires ou les coefficients ajustés dans la régression linéaire pour comprendre ce qui peut distinguer ces groupes et explorer les relations entre les caractéristiques et les populations.
Avant de suivre cette voie, je veux avoir une idée de mes options ici, ce qui est bon et moderne vs mauvaise pratique. Veuillez noter que mon objectif n'est pas la prédiction en soi, mais de tester et de trouver des différences significatives entre les groupes.
Quelles sont certaines approches fondées sur des principes pour résoudre ce problème?
Voici quelques préoccupations que j'ai:
Des méthodes comme l'analyse de régression linéaire peuvent ne pas répondre complètement (2), non? Par exemple, un ajustement unique peut aider à trouver certaines différences, mais pas toutes les différences significatives. Par exemple, la multi-colinéarité peut nous empêcher de trouver comment toutes les fonctionnalités varient d'un groupe à l'autre (au moins sur un seul ajustement). Pour la même raison, je m'attendrais à ce que l'ANOVA ne puisse pas non plus fournir une réponse complète à (2).
On ne sait pas exactement comment une approche prédictive répondrait (1). Par exemple, quelle fonction de perte de classification / prédiction devrions-nous minimiser? Et comment tester si les groupes sont ou non significativement différents une fois que nous avons un ajustement? Enfin, je crains que la réponse à laquelle je parviens (1) dépende de l'ensemble particulier de modèles de classification que j'utilise.
la source
Vous ne dites pas combien de fonctionnalités sont disponibles dans les données. Peu, beaucoup, massifs? Peut-on supposer qu'il s'agit des mêmes caractéristiques entre les populations, toutes mesurées à l'aide des mêmes outils, méthodes et modalités? Sinon, vous avez un plus gros problème où un modèle de mesure des erreurs dans les variables peut fonctionner.
@benoitsanchez semble avoir répondu à la question # 1).
Wrt # 2), je ne suis pas sûr que les RF puissent aider. En utilisant un modèle plus formel tel que l'ANOVA unidirectionnelle appliquée à une entité à la fois, un test de la différence entre les populations pour les entités peut être développé. En résumant les résultats de ces tests, en fonction de l'ampleur du test ainsi que de sa signification, un profil descriptif de la façon dont les populations diffèrent selon les caractéristiques devient possible. Il s'agit d'une solution certes ad hoc et heuristique qui peut ne pas être suffisamment rigoureuse pour vos goûts, vos préférences et votre formation.
N'étant pas bon en notation de type Latex, permettez-moi de décrire simplement comment ces tests pourraient fonctionner: tout d'abord, construisez une sorte de boucle de macro qui passe par toutes les fonctionnalités, une fonctionnalité à la fois. À chaque passage de la boucle, la nouvelle fonctionnalité devient la cible ou DV avec X consistant en une variable fictive pour la population ainsi que toutes les variables de contrôle qui sont appropriées. Assurez-vous que les mêmes contrôles sont utilisés pour chaque fonctionnalité ainsi que que les données sous-jacentes sont exactement les mêmes pour toutes les ANOVA, éliminant ainsi les variations attribuables aux vicissitudes des échantillons de données finies. Agréger les valeurs du test F pour la variable fictive pour chaque entité. Cela fournira une métrique normalisée permettant une comparaison entre les fonctionnalités. Les tests F sont préférables aux bêtas ajustés puisque les bêtasne sont pas normalisés, étant exprimés dans l'unité et les devs standard de chaque caractéristique individuelle.
Votre dernier commentaire, "Je crains que la réponse à laquelle je reçois (1) dépende de l'ensemble particulier de modèles de classification / régression que j'utilise", est toujours vrai. Les réponses sont très susceptibles de varier en fonction du ou des modèles utilisés. C'est aussi l'expression d'un malaise communément observé chez les statisticiens plus fortement théoriques et de formation classique qui ne sont pas à l'aise avec ou qui ont du mal à reconnaître la nature non déterministe de la modélisation statistique appliquée. Un excellent antidote pour ces symptômes est le récent livre d'Efron et Hastie, Computer Age Statistical Inference . Ils font entrer la modélisation statistique dans le 21e siècle, une ère de science des données et d'apprentissage automatique, en reconnaissant franchement la nature itérative, approximative et heuristique de tousmodèles possédant un terme d'erreur. Il n'est pas nécessaire d'être bayésien pour reconnaître la vérité inhérente à cette observation. La leur est une perspective rafraîchissante qui diffère du déterminisme rigide de la pratique statistique classique du 20e siècle qui a levé la main lorsque, par exemple, une matrice de produits croisés ne s'inversait pas et / ou qu'une hypothèse de modèle pédant n'était pas remplie.
la source