J'ai un ensemble de données avec des dizaines de milliers d'observations de données sur les coûts médicaux. Ces données sont fortement asymétriques vers la droite et comportent de nombreux zéros. Il ressemble à ceci pour deux ensembles de personnes (dans ce cas, deux tranches d'âge avec> 3000 obs chacune):
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4536.0 302.6 395300.0
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4964.0 423.8 721700.0
Si j'effectue le test t de Welch sur ces données, j'obtiens un résultat:
Welch Two Sample t-test
data: x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2185.896 1329.358
sample estimates:
mean of x mean of y
4536.186 4964.455
Je sais que ce n'est pas correct d'utiliser un test t sur ces données car c'est tellement anormal. Cependant, si j'utilise un test de permutation pour la différence des moyennes, j'obtiens presque toujours la même valeur de p (et cela se rapproche avec plus d'itérations).
Utilisation du package de perm dans R et permTS avec Monte Carlo exact
Exact Permutation Test Estimated by Monte Carlo
data: x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y
-428.2691
p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
0.5117552 0.7277040
Pourquoi la statistique du test de permutation est-elle si proche de la valeur t.test? Si je prends des journaux des données, j'obtiens une valeur p de t.test de 0,28 et la même chose du test de permutation. Je pensais que les valeurs du test t seraient plus détraquées que ce que j'obtiens ici. Cela est vrai pour de nombreux autres ensembles de données que j'ai comme ça et je me demande pourquoi le test t semble fonctionner alors qu'il ne devrait pas.
Ma préoccupation ici est que les coûts individuels ne sont pas iid Il existe de nombreux sous-groupes de personnes avec des distributions de coûts très différentes (femmes vs hommes, maladies chroniques, etc.) qui semblent annihiler l'exigence iid pour le théorème de la limite centrale, ou devrais-je ne pas m'inquiéter à propos de ça?
Réponses:
Ni le test t ni le test de permutation n'ont beaucoup de pouvoir pour identifier une différence de moyenne entre deux de ces distributions extraordinairement asymétriques. Ainsi, ils donnent tous les deux des valeurs p anodines indiquant aucune signification du tout. Le problème n'est pas qu'ils semblent être d'accord; c'est parce qu'ils ont du mal à détecter la moindre différence, ils ne peuvent tout simplement pas être en désaccord!
Pour une certaine intuition, considérez ce qui se passerait si un changement dans une seule valeur se produisait dans un ensemble de données. Supposons que le maximum de 721 700 ne se soit pas produit dans le deuxième ensemble de données, par exemple. La moyenne aurait chuté d'environ 721700/3000, soit environ 240. Pourtant, la différence dans les moyennes n'est que de 4964 à 4536 = 438, pas même deux fois plus. Cela suggère (bien que cela ne prouve pas) que toute comparaison des moyennes ne trouverait pas la différence significative.
Nous pouvons cependant vérifier que le test t n'est pas applicable. Générons quelques jeux de données avec les mêmes caractéristiques statistiques que ceux-ci. Pour ce faire, j'ai créé des mélanges dans lesquels
Il s'avère dans ces simulations que les valeurs maximales ne sont pas loin non plus des maxima rapportés.
Répliquons 10 000 fois le premier ensemble de données et suivons sa moyenne. (Les résultats seront presque les mêmes lorsque nous le ferons pour le deuxième ensemble de données.) L'histogramme de ces moyennes estime la distribution d'échantillonnage de la moyenne. Le test t est valide lorsque cette distribution est approximativement normale; la mesure dans laquelle elle s'écarte de la normalité indique dans quelle mesure la distribution de Student t se trompera. Donc, pour référence, j'ai également dessiné (en rouge) le PDF de la distribution normale adapté à ces résultats.
Nous ne pouvons pas voir beaucoup de détails car il y a de grandes valeurs aberrantes. (C'est une manifestation de cette sensibilité des moyens que j'ai mentionnés.) Il y en a 123 - 1,23% - au-dessus de 10 000. Concentrons-nous sur le reste afin que nous puissions voir le détail et parce que ces valeurs aberrantes peuvent résulter de la lognormalité supposée de la distribution, ce qui n'est pas nécessairement le cas pour l'ensemble de données d'origine.
Voici le
R
code qui a produit ces chiffres.la source
Lorsque n est grand (comme 300, voire bien moins que 3000), le test t est essentiellement le même que le test z. Autrement dit, le test t devient rien de plus qu'une application du théorème de la limite centrale, qui dit que la moyenne pour chacun de vos deux groupes est presque exactement normalement distribuée (même si les observations sous-jacentes aux deux moyennes sont très loin d'être normalement distribué!). C'est aussi la raison pour laquelle votre table t typique ne prend pas la peine d'afficher des valeurs pour n supérieures à 1000 (par exemple, cette table t) . Ainsi, je ne suis pas surpris de voir que vous obtenez des résultats aussi sages.
Edit: Il me semble avoir sous-estimé l'extrémité de l'asymétrie et son importance. Bien que mon point de vue ci-dessus soit valable dans des circonstances moins extrêmes, la réponse de Whuber à la question est globalement bien meilleure.
la source
Je sais que cette réponse est bien en retard. Cependant, je reçois un doctorat en recherche sur les services de santé, donc je travaille beaucoup avec les données sur les soins de santé, y compris les données sur les coûts.
Je ne sais pas quelles données le PO possédait. S'il s'agissait de données transversales, il est probable qu'il s'agissait à juste titre d'IID. L'indépendance signifie que chaque unité, donc chaque personne, est indépendante. C'est très probablement justifiable. En ce qui concerne la distribution identique, les données peuvent être modélisées comme provenant toutes, disons, d'une distribution gamma dans un modèle linéaire généralisé avec un lien logarithmique. C'est ce que les gens font couramment dans la pratique. Ou si vous voulez devenir fantaisiste, il existe probablement des modèles d'obstacles (populaires en économétrie) qui traitent les excès de 0. Qui, soit dit en passant, sont assez courants dans les dépenses de santé. L'OP est techniquement correct que les données ne sont pas nécessairement distribuées de manière identique, par exemple la moyenne et la variance changeront avec l'âge, mais c'est une hypothèse réalisable dans les modèles de régression multiple.
Si chaque personne faisait partie de l'ensemble de données depuis plus d'un an, les données ne seraient pas des IDI. Il existe des modèles plus complexes disponibles pour cela. Une équation relativement simple serait probablement les équations d'estimation généralisées, la distribution gamma et la liaison logarithmique, en supposant une corrélation de travail échangeable. Ou, si ces données proviennent de données d'enquêtes accessibles au public, il n'y a PAS une probabilité égale d'être échantillonnées - bon nombre de ces enquêtes interrogent plusieurs personnes dans chaque ménage, et elles stratifient également la population et suréchantillonnent certains groupes (par exemple, les minorités raciales). L'utilisateur devrait corriger cela.
Je n'utilise pas de tests t, surtout pas pour les données d'observation. Il y a trop de facteurs de confusion, vous devriez donc les ajuster dans un modèle linéaire (généralisé). Je ne peux donc pas commenter les questions liées spécifiquement aux tests t.
la source