La méthode "A" décrit des échantillons biologiques utilisant des "empreintes digitales" multivariées qui se composent d'environ 30 variables différentes. Différentes variables montrent une distribution typique différente et beaucoup d'entre elles sont étroitement corrélées les unes aux autres. D'après l'expérience antérieure, on suppose que nous ne pouvons pas transformer de nombreuses variables en distribution normale.
La méthode "B" est conçue pour être une version améliorée de la méthode "A" et nous souhaitons comparer la répétabilité de ces deux méthodes. Si nous avions affaire à une seule variable, nous effectuerions des analyses indépendantes de plusieurs échantillons et utiliserions l'ANOVA afin de comparer la variabilité intra-méthode à inter-méthodes. Mais ici, nous avons affaire à des sorties multivariées et nous ne souhaitons pas effectuer une analyse par variable. Quelles sont les bonnes approches à cette question?
Résolution
La réponse par gui11aume de réponse , fournit des informations utiles et précieux. J'adapterai "l'application en aval" de la réponse de gui11aume en suivant 7 analyses à sens unique comme suggéré par AdamO.
Réponses:
Cela me rappelle le diagnostic du cancer, où les anciennes signatures d'expression génique sont remplacées par des signatures plus récentes, qui sont bien sûr censées être meilleures. Mais comment montrer qu'ils sont meilleurs?
Voici quelques suggestions pour comparer la répétabilité des méthodes.
1. Utilisez l'analyse de co-inertie (CIA).n observations. La première paire de composants principaux doit être fortement corrélée (si les méthodes mesurent vraiment la même chose). Si la méthode B est meilleure, la variance résiduelle doit être inférieure à la variance résiduelle de la méthode A. Avec cette approche, vous abordez à la fois l'accord des méthodes et leur désaccord, que vous interprétez comme du bruit.
La CIA devrait être plus annoncée, malheureusement elle n'est pas largement utilisée (pas de page Wikipedia par exemple). CIA est une méthode à deux tables qui fonctionne sur le même principe que l' analyse canonique (CA), qui consiste à rechercher une paire de scores linéaires avec une corrélation maximale entre deux ensembles de mesures multidimensionnelles. Son avantage par rapport à CA est que vous pouvez le faire même si vous avez plus de dimensions que d'observations. Vous pouvez mesurer les deux méthodes sur les mêmes échantillons pour obtenir deux tableaux couplés de 30 colonnes et
2. Utilisez une distance .
Vous pouvez utiliser la distance euclidienne en 30 dimensions entre le test et le retest pour mesurer la répétabilité d'une méthode. Vous générez un échantillon de ce score pour chaque méthode et vous pouvez comparer les échantillons avec le test de Wilcoxon.
3. Utilisez l'application en aval.
Vous obtenez probablement ces empreintes digitales pour prendre une décision ou classer des patients ou du matériel biologique. Vous pouvez compter les accords vs désaccords entre les tests et les retests pour les deux méthodes et les comparer avec le test de Wilcoxon.
La méthode 3 est la plus simple, mais aussi la plus terre à terre. Même pour les entrées de grande dimension, les décisions sont généralement assez simples. Et aussi complexe que soit notre problème, gardez à l'esprit que la statistique est la science de la décision.
Concernant la question dans votre commentaire.
La réduction de la dimensionnalité, aussi robuste soit-elle, sera associée à une perte de variance. S'il existe un moyen de transformer votre empreinte digitale multivariée en un seul score capturant presque toute sa variance, alors bien sûr, c'est de loin la meilleure chose à faire. Mais alors pourquoi l'empreinte digitale est-elle multivariée en premier lieu?
J'ai supposé à partir du contexte de l'OP que l'empreinte digitale est multivariée précisément parce qu'il est difficile de réduire davantage sa dimensionnalité sans perdre d'informations. Dans ce cas, leur répétabilité sur un seul score ne doit pas être un bon indicateur de la répétabilité globale, car vous pouvez négliger la majorité de la variance (proche de 29/30 dans le pire des cas).
la source
Je suppose à partir de votre question et de votre commentaire que les 30 variables de sortie ne peuvent pas (facilement) ou ne doivent pas être transformées en une seule variable.
Une idée pour gérer les données deXUNE( n ×pUNE)↔XB( n ×pB) est que vous pourriez faire une régression de XUNE( n ×pUNE)↦XB( n ×pB) et vice versa. Connaissances supplémentaires (par exemple, qui varientje dans l'ensemble A correspond à la variable je également dans l'ensemble B) peut aider à restreindre le modèle de cartographie et / ou à l'interprétation.
Alors qu'en est-il du PCA multi-blocs (ou -PLS) qui va plus loin dans cette idée? Pour ces méthodes, les deux empreintes digitales multivariées pour les mêmes échantillons (ou les mêmes individus) sont analysées ensemble en tant que variables indépendantes, avec ou sans un troisième bloc dépendant.
R. Brereton: "Chemometrics for Pattern Recognition" discute de certaines techniques dans le dernier chapitre ("Comparing Different Patterns") et googler vous mènera à un certain nombre d'articles, également des introductions. Notez que vos situations ressemblent à des problèmes où, par exemple, des mesures spectroscopiques et génétiques sont analysées ensemble (deux matrices avec une correspondance en ligne par opposition à l'analyse, par exemple, des séries temporelles de spectres où un cube de données est analysé).
Voici un article traitant de l'analyse multi-blocs: Sahar Hassani: Analyse des données -omiques: Outils d'interprétation graphique et de validation dans les méthodes multi-blocs .
En outre, c'est peut-être un bon point de départ dans une autre direction: Hoefsloot et.al., Multiset Data Analysis: ANOVA Simultaneous Component Analysis and Related Methods, dans: Comprehensive Chemometrics - Chemical and Biochemical Data Analysis (je n'y ai pas accès). , je viens de voir le résumé)
la source
30 Les analyses à sens unique sont certainement une option et constitueraient un type d'analyse «tableau 2» idéal, dans lequel une performance globale est résumée de manière logique. Il se peut que la méthode B produise les 20 premiers facteurs avec une précision légèrement améliorée tandis que les 10 derniers sont beaucoup plus variables. Vous avez le problème de l'inférence en utilisant un espace partiellement ordonné: certainement si tous les 30 facteurs sont plus précis dans B, alors B est une meilleure méthode. Mais il y a une zone "grise" et avec le grand nombre de facteurs, il est presque garanti de se manifester dans la pratique.
Si l'objectif de cette recherche est d'atterrir sur une seule analyse, il est important de considérer le poids de chaque résultat et leur application de point final. Si ces 30 variables sont utilisées dans la classification, la prédiction et / ou le regroupement des données d'observation, j'aimerais voir la validation de ces résultats et une comparaison de A / B dans la classification (en utilisant quelque chose comme des tableaux de stratification du risque ou un biais moyen en pourcentage) , la prédiction (en utilisant le MSE) et le clustering (en utilisant quelque chose comme la validation croisée). C'est la bonne façon de gérer la zone grise dans laquelle vous ne pouvez pas dire que B est mieux analytiquement, mais fonctionne beaucoup mieux en pratique.
la source
Je vais essayer une approche ANOVA multivariée basée sur la permutation ( PERMANOVA ). Une analyse d'ordination (basée sur le résultat d'une analyse de longueur de gradient) pourrait également aider.
la source
Si vous pouviez supposer une normalité multivariée (ce que vous avez dit que vous ne pouviez pas), vous pourriez faire un test Hotelling T2 d'égalité des vecteurs moyens pour voir si vous pouviez réclamer des différences entre les distributions ou non. Cependant, bien que vous ne puissiez pas le faire, vous pouvez toujours comparer théoriquement les distributions pour voir si elles diffèrent beaucoup. Divisez l'espace tridimensionnel en grilles rectangulaires. Utilisez-les comme 30 bacs dimensionnels. Comptez le nombre de vecteurs tombant dans chaque bac et appliquez un test du chi carré pour voir si les distributions se ressemblent. Le problème avec cette suggestion est qu'elle nécessite une sélection judicieuse des bacs afin de couvrir les points de données de manière appropriée. De plus, la malédiction de la dimensionnalité rend difficile l'identification des différences entre les distributions multivariées sans avoir un très grand nombre de points dans chaque groupe. Je pense que les suggestions faites par gui11aume sont raisonnables. Je ne pense pas que les autres le soient. Étant donné que la comparaison des distributions n'est pas possible en 30 dimensions avec un échantillon typique, une forme de comparaison valide des vecteurs moyens me semble appropriée.
la source