ANOVA avec observations non indépendantes

11

Désolé pour le fond verbeux de cette question:

Parfois, dans les enquêtes sur le comportement animal, un expérimentateur s'intéresse à la quantité de temps qu'un sujet passe dans différentes zones prédéfinies dans un appareil d'essai. J'ai souvent vu ce type de données analysées à l'aide d'ANOVA; cependant, je n'ai jamais été entièrement convaincu de la validité de telles analyses, étant donné que l'ANOVA suppose que les observations sont indépendantes, et qu'elles ne sont jamais réellement indépendantes dans ces analyses (car plus de temps passé dans une zone signifie que moins est dépensé dans d'autres zones! ).

Par exemple,

DR Smith, CD Striplin, AM Geller, RB Mailman, J. Drago, CP Lawler, M. Gallagher, Behavioral assessment of mice without D1A dopamine receptors , Neuroscience, Volume 86, Issue 1, 21 mai 1998, Pages 135-146

Dans l'article ci-dessus, ils réduisent les degrés de liberté de 1 afin de compenser la non-indépendance. Cependant, je ne sais pas comment une telle manipulation peut réellement améliorer cette violation des hypothèses ANOVA.

Peut-être qu'une procédure chi carré pourrait être plus appropriée? Que feriez-vous pour analyser des données comme celle-ci (préférence pour les zones, en fonction du temps passé dans les zones)?

Merci!

Mike Wong
la source

Réponses:

3

(Caveat Emptor: Je ne suis pas un expert dans ce domaine)

Si vous voulez simplement parler des différences de temps passé par emplacement, alors soumettre les données "temps par emplacement" sous forme de nombres dans un modèle mixte multinomial (voir le package MCMCglmm pour R), en utilisant le sujet comme un effet aléatoire, devrait faire l'astuce.

Si vous voulez parler des différences de préférence de localisation dans le temps, alors peut-être du temps bin à des intervalles raisonnables (peut-être à la résolution de votre dispositif de chronométrage?), Classifiez chaque intervalle en fonction de l'emplacement de la souris à ce moment (par exemple, si 3 emplacements, chaque intervalle est étiqueté 1, 2 ou 3), et encore une fois, utilisez un modèle d'effets mixtes multinomiaux avec le sujet comme effet aléatoire, mais cette fois ajoutez l'intervalle comme effet fixe (mais peut-être seulement après la factorisation de l'intervalle, qui diminue la puissance mais devrait aider capturer les non-linéarités dans le temps).

Mike Lawrence
la source
5

Mike,

Je suis d'accord qu'une ANOVA basée sur le temps total n'est probablement pas la bonne approche ici. De plus, je ne suis pas convaincu que Chi Sqaure résout votre problème. Le chi carré respectera l'idée que vous ne pouvez pas être à deux endroits en même temps, mais cela ne résout pas le problème qu'il existe des dépendances probables entre le temps N et le temps N + 1. En ce qui concerne ce deuxième problème, je vois des analogies entre votre situation et ce que les gens rencontrent avec les données de suivi des yeux et de la souris. Un modèle multinomial quelconque peut bien servir vos objectifs. Malheureusement, les détails de ce type de modèle dépassent mon expertise. Je suis sûr que quelque livre de statistiques quelque part a une belle petite introduction sur ce sujet, mais du haut de ma tête, je vous pointe vers:

  • Barr DJ (2008) Analyse des données d'eyeracking du «monde visuel» à l'aide d'une régression logistique à plusieurs niveaux. Journal of Memory and Language, numéro spécial: Emerging Data Analysis (59) pp 457-474
  • https://r-forge.r-project.org/projects/gmpm/ est une approche non paramétrique du même problème développé par le Dr Barr

Si quoi que ce soit, ces deux sources devraient être plus que complètes car elles expliquent comment analyser le déroulement temporel du poste.

russellpierce
la source
4

Rechercher des modèles avec des erreurs corrélées spatialement (et des covariables spatialement corrélées). Une brève introduction, avec des références à GeoDa , est disponible ici . Il y a beaucoup de textes; les bons sont de Noel Cressie , Robert Haining et Fotheringham et al (le dernier lien va à un résumé, pas à un site de livre). Un code R a récemment émergé, mais je ne le connais pas.

whuber
la source
3

Je vais proposer une réponse très différente de celle d'une ANOVA traditionnelle. Soit T le temps total disponible pour un animal dans toutes les zones. Vous pouvez définir T comme la durée totale de réveil ou quelque chose comme ça. Supposons que vous ayez J zones. Ensuite, par définition, vous avez:

Somme T_j = T

Vous pouvez normaliser ce qui précède en divisant les lhs et les rhs par T et vous obtenez

Somme P_j = 1

où P_j est la proportion de temps qu'un animal passe dans la zone j.

Maintenant, la question que vous avez est de savoir si P_j est significativement différent de 1 / J pour tout j.

Vous pouvez supposer que P_j suit une distribution de dirichlet et estimer deux modèles.

Modèle nul

Réglez les paramètres de la distribution de telle sorte que P_j = 1 / J. (Définir les paramètres de la distribution sur 1 fera l'affaire.)

Modèle alternatif

Définissez les paramètres de la distribution en fonction des covariables spécifiques à la zone. Vous pouvez ensuite estimer les paramètres du modèle.

Vous choisiriez le modèle alternatif s'il surpasse le modèle nul sur certains critères (par exemple, le rapport de vraisemblance).


la source