Comment tester si deux distributions multivariées sont échantillonnées à partir de la même population sous-jacente?

13

Supposons que l'on vous donne deux ensembles de données multivariés, disons un ancien et un nouveau, et qu'ils sont censés avoir été générés par le même processus (pour lequel vous n'avez pas de modèle) mais peut-être quelque part le long de la ligne de collecte / création les données, quelque chose a mal tourné. Vous ne voudriez pas utiliser les nouvelles données comme, disons, un ensemble de validation pour les anciennes données ou les ajouter aux anciennes données.

Vous pouvez faire un tas de statistiques 1-d (par variable), par exemple la somme de rang de Wilcoxon, et essayer une correction de test multiple mais je ne suis pas sûr que ce soit optimal (pour capturer les subtilités des données multivariées et encore moins les problèmes de multi-test). Une façon consiste à utiliser un classificateur et à voir si vous pouvez faire la distinction entre les deux ensembles de données (étant donné un classificateur optimal qui est optimal). Cela semble fonctionner mais quand même a) les perhpas il y a une meilleure façon b) ce n'est pas vraiment conçu pour vous dire pourquoi c'est différent (si rien d'autre, il utilisera les meilleurs prédicteurs et peut-être manquera d'autres bons prédicteurs qui étaient subsumbed par les meilleurs)

un diamant
la source

Réponses:

3
http://131.95.113.139/courses/multivariate/mantel.pdf

Explique deux façons possibles de le faire si vos ensembles de données sont de la même taille. L'approche de base consiste à calculer une métrique de distance entre vos deux matrices observées. Ensuite, pour déterminer si cette distance est significative, vous utilisez un test de permutation .

Si vos jeux de données ne sont pas de la même taille, vous pouvez utiliser le test de correspondance, bien qu'il ne semble pas être très populaire. Au lieu du test de correspondance, vous pouvez essayer d'échantillonner vos données vers le haut ou vers le bas afin qu'elles soient de la même taille, puis en utilisant l'une des approches mentionnées dans le premier article.

Amit Deshwar
la source
Vous mentionnez que si nous avons des ensembles de données de taille inégale, utilisez le test de correspondance croisée. Cependant, à la suite de l'article que vous mentionnez, ils utilisent des ensembles de données égaux et cherchent à s'apparier en fonction des distances. Avez-vous trouvé des preuves de son utilisation? même dans les notes de publication pour les correspondances croisées, l'exemple utilise des ensembles de données égaux
lukeg