Supposons que l'on vous donne deux ensembles de données multivariés, disons un ancien et un nouveau, et qu'ils sont censés avoir été générés par le même processus (pour lequel vous n'avez pas de modèle) mais peut-être quelque part le long de la ligne de collecte / création les données, quelque chose a mal tourné. Vous ne voudriez pas utiliser les nouvelles données comme, disons, un ensemble de validation pour les anciennes données ou les ajouter aux anciennes données.
Vous pouvez faire un tas de statistiques 1-d (par variable), par exemple la somme de rang de Wilcoxon, et essayer une correction de test multiple mais je ne suis pas sûr que ce soit optimal (pour capturer les subtilités des données multivariées et encore moins les problèmes de multi-test). Une façon consiste à utiliser un classificateur et à voir si vous pouvez faire la distinction entre les deux ensembles de données (étant donné un classificateur optimal qui est optimal). Cela semble fonctionner mais quand même a) les perhpas il y a une meilleure façon b) ce n'est pas vraiment conçu pour vous dire pourquoi c'est différent (si rien d'autre, il utilisera les meilleurs prédicteurs et peut-être manquera d'autres bons prédicteurs qui étaient subsumbed par les meilleurs)
la source
Recherchez le T ^ 2 de Hotelling, ou si vous avez des données très faibles, regardez ceci: http://normaldeviate.wordpress.com/2012/07/14/modern-two-sample-tests/
la source