J'ai examiné de nombreux ensembles de données R, des publications dans DASL et ailleurs, et je ne trouve pas de très bons exemples d'ensembles de données intéressants illustrant l'analyse de la covariance pour les données expérimentales. Il existe de nombreux ensembles de données "jouets" avec des données artificielles dans les manuels de statistiques.
J'aimerais avoir un exemple où:
- Les données sont réelles, avec une histoire intéressante
- Il existe au moins un facteur de traitement et deux covariables
- Au moins une covariable est affectée par un ou plusieurs des facteurs de traitement, et une n'est pas affectée par les traitements.
- Expérimental plutôt qu'observatoire, de préférence
Contexte
Mon véritable objectif est de trouver un bon exemple à mettre dans la vignette de mon package R. Mais un objectif plus large est que les gens doivent voir de bons exemples pour illustrer certaines préoccupations importantes dans l'analyse de covariance. Considérez le scénario inventé suivant (et veuillez comprendre que ma connaissance de l'agriculture est au mieux superficielle).
- Nous faisons une expérience où les engrais sont randomisés en parcelles et une culture est plantée. Après une période de croissance appropriée, nous récoltons la récolte et mesurons une caractéristique de qualité - c'est la variable de réponse. Mais nous enregistrons également les précipitations totales pendant la période de croissance et l'acidité du sol au moment de la récolte - et, bien sûr, quel engrais a été utilisé. Nous avons donc deux covariables et un traitement.
La manière habituelle d'analyser les données résultantes serait d'adapter un modèle linéaire avec le traitement comme facteur et des effets additifs pour les covariables. Ensuite, pour résumer les résultats, on calcule des «moyennes ajustées» (AKA moindres carrés), qui sont des prédictions du modèle pour chaque engrais, à la pluviométrie moyenne et à l'acidité moyenne du sol3. Cela met tout sur un pied d'égalité, car lorsque nous comparons ces résultats, nous maintenons les précipitations et l'acidité constantes.
Mais c'est probablement la mauvaise chose à faire - car l'engrais affecte probablement l'acidité du sol ainsi que la réponse. Cela rend les moyens ajustés trompeurs, car l'effet du traitement inclut son effet sur l'acidité. Une façon de gérer cela serait de retirer l'acidité du modèle, puis les moyennes ajustées en fonction des précipitations fourniraient une comparaison équitable. Mais si l'acidité est importante, cette équité a un coût élevé, dans l'augmentation de la variation résiduelle.
Il existe des moyens de contourner ce problème en utilisant une version ajustée de l'acidité dans le modèle au lieu de ses valeurs d'origine. La prochaine mise à jour de mon package R lsmeans rendra cela très simple. Mais je veux avoir un bon exemple pour l'illustrer. Je serai très reconnaissant envers toute personne qui pourra m'orienter vers de bons ensembles de données illustratifs et en tiendra dûment compte.
Réponses:
Vous voudrez peut-être consulter le
mediation
package R. Il comprend des données expérimentales commejobs
etframing
où la variable de traitement affecte à la fois une variable de réponse et des covariables (c.-à-d. Des médiateurs de l'effet du traitement), ainsi que des covariables non affectées par le traitement.J'ai examiné la littérature sur la médiation parce que je pensais que vous décriviez exactement une étude de médiation: l'effet des engrais sur la qualité des cultures est médié par son effet sur l'acidité du sol. Même si les ensembles de données du
mediation
package ne vous satisfont pas, vous pouvez en trouver un si vous consultez la littérature sur la médiation.la source
framing
données, les graphiques d'interaction des moyennes (basés sur un modèle logistique) lorsque la variable médiatrice est maintenue fixe sont radicalement différents de ceux où elle est définie sur des valeurs prédites par les traitements et autres covariables, montrant ainsi combien il est important de prendre la médiation variable en compte.J'ai pensé montrer comment une analyse aboutit avec l'un des ensembles de données du package de médiation . Dans
framing
, une expérience est réalisée où les sujets ont la possibilité d'envoyer un message au Congrès concernant l'immigration. Cependant, certains sujets (treat=1
) ont d'abord vu une nouvelle qui décrit les Latinos de manière négative. Outre la réponse binaire (qu'ils aient ou non envoyé un message), nous avons également mesuréemp
l'état émotionnel des sujets après l'application du traitement. Il existe également diverses variables démographiques.Commençons par charger les packages nécessaires dans R et modifions les étiquettes pour
educ
des chaînes plus courtes.Adapter maintenant un modèle de régression logistique
Voici un affichage des moyens ajustés classiques, où les prévisions sont faites avec les covariables
age
,income
etemo
fixés à leurs valeurs moyennes:C'est un résultat curieux car les effets de traitement affichés sont inverses pour les femmes comme pour les hommes, et l'effet de l'éducation n'est pas monotone comme on pourrait s'y attendre.
Remarque, cependant,
emo
est une mesure de post-traitement. Cela signifie que le traitement aurait pu l'affecter, c'estemo
-à- dire une covariable médiatrice; et ainsi il peut ne pas être significatif de comparer les prédictions de la variable de réponse tout en restantemo
constante. Au lieu de cela, regardons les prédictions oùemo
est défini ses valeurs prédites donnéestreat
et les variables démographiques.Ce résultat est assez différent, suggérant qu'il
emo
joue un rôle de médiation fort. (Le module de médiation a des fonctions pour estimer la force de ces effets.) Les prédictions ci-dessus suggèrent que, compte tenu de la réponse émotionnelle, les sujets masculins exposés à la nouvelle négative sont plus susceptibles d'envoyer le message que les femmes ou ceux qui ne voient pas le histoire de nouvelles négatives. De plus, l'effet deeduc
est (presque) monotone.Merci encore à @MasatoNakagawa de m'avoir montré cet exemple intéressant et de m'avoir mis au courant de quelques recherches récentes sur la causalité.
la source
Recherchez les études GWAS sur l'interaction gène-environnement. L'analyse statistique qu'ils effectuent est essentiellement ce que vous avez décrit. La question est: votre environnement est-il important pour un phénotype (caractéristique observable)? Une école de pensée ignore généralement toutes les informations environnementales et dit que votre constitution génétique décrit votre phénotype. Ceci est en contraste complet avec les études écologiques où l'histoire est l'environnement est tout et ils ignorent les gènes. Étant donné que les deux parties tentent de comprendre le même problème, il y a eu récemment des tentatives de fusionner les deux.
Disons que nous étudions l'IMC. Nous considérons les premiers composants principaux de la matrice génétique comme les effets fixes dus aux gènes. Nous ajustons l'éducation avec un indice 1 pour les personnes bien éduquées et 0 pour les personnes peu instruites comme effet fixe. Il existe une corrélation raisonnablement forte entre l'indice d'éducation et la richesse de la communauté dont la personne est originaire. On pourrait donc soutenir que les collectivités à faible revenu sont plus susceptibles d'avoir plus de restaurants-minute. Le fast-food agit comme un déclencheur obésogène.
La simulation de telles données n'est pas un problème. Chercher
http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml
Cela vous permet de simuler des données GWAS (considérées comme des unités génétiques) responsables d'un symptôme. Sinon, il en générera 1000 avec le symptôme et 1000 contrôles. La norme dans ces simulations que j'utilise est que 9990 SNP ne provoquent pas le symptôme et 10 SNP le font. Lisez les instructions sur la façon dont celles-ci sont simulées.
La sortie sera 1 si la personne est obèse et 0 si elle ne l'est pas. Simuler des facteurs de scolarité (études collégiales terminées / études collégiales non terminées) en fonction d'une corrélation raisonnable avec les niveaux d'obésité.
J'espère que cela t'aides!!!
la source
Je recommanderais de lire Freakonomics, de trouver les documents sur lesquels leur travail est basé et de voir si vous pouvez récupérer ces données. Ils ont un travail vraiment intéressant sur des ensembles de données vraiment intéressants, et dans certains cas, ils trouvent des moyens très intelligents pour tester des hypothèses malgré les limites des données.
la source