Un enquêteur souhaite produire une analyse combinée de plusieurs ensembles de données. Dans certains ensembles de données, il existe des observations appariées pour les traitements A et B. Dans d'autres, il existe des données A et / ou B non appariées. Je recherche une référence pour une adaptation du test t, ou pour un test de rapport de vraisemblance, pour de telles données partiellement appariées. Je suis prêt à (pour l'instant) assumer la normalité avec une variance égale et que les moyennes de population pour A sont les mêmes pour chaque étude (et de même pour B).
hypothesis-testing
t-test
paired-data
change-scores
Frank Harrell
la source
la source
Réponses:
Guo et Yuan suggèrent une méthode alternative appelée le test t groupé optimal issu du test t groupé de Samawi et Vogel.
Lien vers la référence: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.865.734&rep=rep1&type=pdf
Bonne lecture avec plusieurs options pour cette situation.
Nouveau dans les commentaires, faites-le moi savoir si je dois ajouter autre chose.
la source
Eh bien, si vous connaissiez les variances entre les paires non appariées et les paires (qui seraient généralement beaucoup plus petites), les poids optimaux pour les deux estimations de la différence dans les moyennes des groupes seraient d'avoir des poids inversement proportionnels à la variance de l'individu estimations de la différence de moyennes.
[Modifier: il s'avère que lorsque les variances sont estimées, cela s'appelle l'estimateur de Graybill-Deal. Il y a eu pas mal de papiers là-dessus. En voici un]
La nécessité d'estimer la variance cause certaines difficultés (le rapport résultant des estimations de la variance est F, et je pense que les poids résultants ont une distribution bêta, et une statistique résultante est un peu compliquée), mais puisque vous envisagez de démarrer, cela peut être moins préoccupant.
Une autre possibilité qui pourrait être plus agréable dans un certain sens (ou au moins un peu plus robuste à la non-normalité, puisque nous jouons avec des ratios de variance) avec très peu de perte d'efficacité à la normale est de baser une estimation combinée de la déconnexion tests de rangs appariés et non appariés - dans chaque cas, une sorte d'estimation de Hodges-Lehmann, dans le cas non apparié sur la base des médianes des différences entre échantillons par paires et dans le cas apparié des médianes des moyennes par paires-des différences de paires. Encore une fois, la combinaison linéaire pondérée de variance minimale des deux serait avec des poids proportionnels aux inverses de variances. Dans ce cas, je pencherais probablement vers une permutation (/ randomisation) plutôt qu'un bootstrap - mais selon la façon dont vous implémentez votre bootstrap, ils peuvent se retrouver au même endroit.
Dans les deux cas, vous souhaiterez peut-être renforcer vos variances / réduire votre ratio de variance. Obtenir le bon niveau de poids est bien, mais vous perdrez très peu d'efficacité à la normale en le rendant légèrement robuste. ---
Quelques réflexions supplémentaires que je n'avais pas assez clairement définies dans ma tête auparavant:
Ce problème présente des similitudes distinctes avec le problème de Behrens-Fisher, mais il est encore plus difficile.
Si nous fixions les poids, nous pourrions simplement taper dans une approximation de type Welch-Satterthwaite; la structure du problème est la même.
Notre problème est que nous voulons optimiser les poids, ce qui signifie effectivement que la pondération n'est pas fixe - et, en fait, tend à maximiser la statistique (au moins approximativement et plus près dans les grands échantillons, car tout ensemble de poids est une quantité aléatoire estimant la même numérateur, et nous essayons de minimiser le dénominateur; les deux ne sont pas indépendants).
J'imagine que cela aggraverait l'approximation du chi carré et affecterait presque sûrement davantage le df d'une approximation.
[Si ce problème est réalisable, il pourrait aussi se révéler une bonne règle empirique qui dirait «vous pouvez faire presque aussi bien si vous n'utilisez que les données appariées dans ces ensembles de circonstances, uniquement les non appariées sous ces autres ensembles de conditions et dans le reste, ce régime de poids fixe est généralement très proche de l'optimum »- mais je ne retiens pas mon souffle en attendant cette chance. Une telle règle de décision aurait sans aucun doute un impact sur la véritable signification dans chaque cas, mais si cet effet n'était pas si important, une telle règle de base permettrait aux gens d'utiliser facilement les logiciels existants, il pourrait donc être souhaitable de essayez d'identifier une règle comme celle pour les utilisateurs dans une telle situation.]
---
Edit: Note à soi-même - Besoin de revenir et de remplir les détails du travail sur les tests des «échantillons qui se chevauchent», en particulier les tests t des échantillons qui se chevauchent
---
Il me semble qu'un test de randomisation devrait fonctionner correctement -
où les données sont appariées, vous permutez au hasard les étiquettes de groupe au sein de paires
lorsque les données ne sont pas appariées mais supposées avoir une distribution commune (sous la valeur null), vous permutez les affectations de groupe
vous pouvez maintenant baser les pondérations sur les deux estimations de décalage à partir des estimations de variance relative ( ), calculer l'estimation pondérée de décalage de chaque échantillon randomisé et voir où se situe l'échantillon dans le distribution de randomisation.w1= 1 / ( 1 + v1v2)
(Ajouté beaucoup plus tard)
Document éventuellement pertinent:
Derrick, B., Russ B., Toher, D. et White, P. (2017),
«Test Statistics for the Comparison of Means for Two Samples that include both Paired and Independent Observations»
Journal of Modern Applied Statistical Methods , mai , Vol. 16, n ° 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm
la source
Voici quelques réflexions. J'arrive à la conclusion de Greg Snow que ce problème a des similitudes distinctes avec le problème de Behrens-Fisher . Pour éviter les ondulations, j'introduis d'abord quelques notations et formalise les hypothèses.
chaque observation est la somme d'un effet patient et d'un effet traitement. Les variables aléatoires correspondantes sont
La prochaine étape naturelle est de considérer
À ce stade, je pense que l'on peut brancher n'importe quelle solution proposée au problème de Behrens Fisher pour obtenir une solution à votre problème.
la source
Ma première pensée a été un modèle d'effets mixtes, mais qui a déjà été discuté donc je n'en dirai pas plus à ce sujet.
Mon autre pensée est que s'il était théoriquement possible que vous ayez pu mesurer des données appariées sur tous les sujets, mais en raison du coût, d'erreurs ou d'une autre raison pour laquelle vous n'avez pas toutes les paires, alors vous pourriez traiter l'effet non mesuré pour les sujets non appariés comme données manquantes et utiliser des outils comme l'algorithme EM ou l'imputation multiple (le fait de manquer au hasard semble raisonnable à moins que la raison pour laquelle un sujet n'a été mesuré que sous 1 traitement était liée à ce que son résultat serait sous l'autre traitement).
Il peut être encore plus simple d'ajuster simplement une normale bivariée aux données en utilisant le maximum de vraisemblance (avec la vraisemblance prise en compte sur la base des données disponibles par sujet), puis de faire un test de rapport de vraisemblance comparant la distribution avec les moyennes égales vs les moyennes différentes.
Cela fait longtemps que je n'ai pas suivi mes cours théoriques, donc je ne sais pas comment ceux-ci se comparent sur l'optimalité.
la source
peut-être que la modélisation mixte avec le patient car un effet aléatoire pourrait être un moyen. Avec une modélisation mixte, la structure de corrélation dans le cas apparié et les manquements partiels dans le cas non apparié pourraient être pris en compte.
la source
gls
fonction R dans lenlme4
package.L'une des méthodes proposées dans Hani M. Samawi & Robert Vogel (Journal of Applied Statistics, 2013) consiste en une combinaison pondérée de scores T provenant d'échantillons indépendants et dépendants de telle sorte que le nouveau score T soit égal à
la source