En règle générale, lorsque l'on rencontre des mesures de résultats continues mais asymétriques dans un plan longitudinal (par exemple, avec un effet inter-sujets), l'approche courante consiste à transformer le résultat en normalité. Si la situation est extrême, comme dans le cas d'observations tronquées, on peut se montrer fantaisiste et utiliser un modèle de courbe de croissance Tobit, ou quelque chose du genre.
Mais je suis perdu quand je vois des résultats qui sont normalement distribués à certains moments et ensuite fortement biaisés à d'autres; la transformation peut colmater une fuite mais en provoquer une autre. Que pourriez-vous suggérer dans un tel cas? Existe-t-il des versions "non paramétriques" de modèles d'effets mixtes?
Remarque: un exemple appliqué serait les scores aux tests de connaissances avant / après une série d'interventions éducatives. Les scores commencent normalement mais se regroupent ensuite dans la partie haute de l'échelle.
la source
Réponses:
En supposant que le problème se produit dans vos résidus (comme la distribution de la variable de résultat elle-même n'est généralement pas un problème), je chercherais à rechercher la cause du problème plutôt que d'essayer de le "résoudre" via une transformation ou l'application d'un modèle non paramétrique.
Si c'est le cas, il semble y avoir une tendance (par exemple, devenir progressivement plus ou moins normal), ou, une nette coupure entre le moment où il passe de normal à non normal, alors cela suggère un "changement de régime" vos données (c'est-à-dire que le mécanisme de génération de données change avec le temps) ou un certain type de problème de variable manquante.
S'il n'y a pas de modèle évident (par exemple, les périodes 1 et 3 semblent normales et les périodes 2 et 4 ne le sont pas), je rechercherais très attentivement un problème d'intégrité des données.
Un moyen simple de vérifier si vous avez un changement de régime consiste à estimer le modèle en utilisant uniquement les périodes «normales», puis à réestimer en utilisant les autres périodes et à voir quelle différence se produit. Une approche plus compliquée consiste à utiliser un modèle de classe latente, peut-être avec le temps comme variable concomitante.
En ce qui concerne votre question sur les modèles d'effets mixtes non paramétriques, cela dépend en quelque sorte de ce que vous entendez par non paramétrique. Si vous voulez dire des modèles qui n'assument pas une variable dépendante numérique, il y en a beaucoup (par exemple, LIMDEP en a plusieurs). Gardez également à l'esprit que la violation de l'hypothèse de normalité ne sera probablement problématique du point de vue de l'inférence que si la taille de votre échantillon est petite. Une façon d'enquêter serait d'essayer les différentes transformations discutées dans d'autres commentaires et réponses et de voir si cela a beaucoup d'impact sur vos conclusions.
la source
Il y a les transformations de Box-Cox qui élèvent la variable à une puissance lambda où lambda est inclus dans l'estimation des paramètres du modèle. Je ne connais pas la transformation du pouvoir replié de Tukey, donc je ne sais pas si nous parlons de la même chose. Pour évaluer lambda, vous avez besoin de plusieurs points dans l'ajustement. Voulez-vous adapter une distribution différente à chaque point dans le temps où la distribution est définie sur un ensemble de sujets passant le test à chaque point dans le temps? Même si c'est le cas, si vous savez que certains points temporels doivent avoir la même distribution, vous pouvez les combiner en un seul ajustement.
Une autre approche non paramétrique et n'impliquant pas de transformations à la normalité serait d'appliquer le bootstrap à chaque point dans le temps ou à chaque ensemble combiné de points dans le temps.
la source