Analyse bayésienne des tableaux de contingence: comment décrire la taille de l'effet

Je travaille à travers les exemples de Doing Bayesian Data Analysis de Kruschke , en particulier l'ANOVA exponentielle de Poisson en ch. 22, qu'il présente comme une alternative aux tests d'indépendance du chi carré fréquentiste pour les tables de contingence.

Je peux voir comment nous obtenons des informations sur les interactions qui se produisent plus ou moins fréquemment que ce qui serait attendu si les variables étaient indépendantes (c'est-à-dire lorsque l'IDH exclut zéro).

Ma question est de savoir comment puis-je calculer ou interpréter une taille d'effet dans ce cadre? Par exemple, Kruschke écrit "la combinaison des yeux bleus avec des cheveux noirs se produit moins fréquemment que ce à quoi on pourrait s'attendre si la couleur des yeux et la couleur des cheveux étaient indépendantes", mais comment pouvons-nous décrire la force de cette association? Comment savoir quelles interactions sont plus extrêmes que d'autres? Si nous faisions un test du chi carré de ces données, nous pourrions calculer le V de Cramér comme mesure de la taille globale de l'effet. Comment exprimer la taille de l'effet dans ce contexte bayésien?

Voici l'exemple autonome du livre (codé R), juste au cas où la réponse me serait cachée à la vue ...

df <- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 14, 15, 
10, 54, 14), .Dim = c(4L, 4L), .Dimnames = list(c("Black", "Blond", 
"Brunette", "Red"), c("Blue", "Brown", "Green", "Hazel")))

df

         Blue Brown Green Hazel
Black      20    68     5    15
Blond      94     7    16    10
Brunette   84   119    29    54
Red        17    26    14    14

Voici la sortie fréquentiste, avec des mesures de taille d'effet (pas dans le livre):

vcd::assocstats(df)
                    X^2 df P(> X^2)
Likelihood Ratio 146.44  9        0
Pearson          138.29  9        0

Phi-Coefficient   : 0.483 
Contingency Coeff.: 0.435 
Cramer's V        : 0.279

Voici la sortie bayésienne, avec les IDH et les probabilités de cellule (directement à partir du livre):

# prepare to get Krushkes' R codes from his web site
Krushkes_codes <- c(
  "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/openGraphSaveGraph.R", 
  "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/PoissonExponentialJagsSTZ.R")

# download Krushkes' scripts to working directory
lapply(Krushkes_codes, function(i) download.file(i, destfile = basename(i)))

# run the code to analyse the data and generate output
lapply(Krushkes_codes, function(i) source(basename(i)))

Et voici des tracés du modèle exponentiel postérieur de Poisson appliqué aux données:

entrez la description de l'image ici

Et des graphiques de la distribution postérieure sur les probabilités cellulaires estimées:

entrez la description de l'image ici

r bayesian effect-size contingency-tables Ben
la source

Réponses:

Selon l'indice, Kruschke ne mentionne que la taille de l'effet deux fois, et les deux fois sont dans le contexte d'une variable prédite métrique. Mais il y a ce morceau à la p. 601:

Si le chercheur s'intéresse aux violations de l'indépendance, alors l'intérêt porte sur les magnitudes du . Le modèle est particulièrement pratique à cet effet, car des contrastes d'interaction arbitraires peuvent être étudiés pour déterminer où la non-indépendance se produit. $\beta_{rc}$

Donc, je suppose que est le paramètre à interpréter. Soit la somme des produits de tous les coefficients et de leurs éléments x correspondants, à l'exclusion de et . Depuis et . Lorsque = 1, alors croît ou rétrécit d'un facteur , non? $\beta_{1,2}$ $S$ $\beta_{1,2}$ $x_{1,2}$ $y_i {\raise.17ex\hbox{$\scriptstyle\sim$}} Pois(\lambda_i)$ $\lambda_i = e^{\beta_{1,2} x_{1,2} + S} = e^{\beta_{1,2} x_{1,2}} e^S$ $x_{1,2}$ $\lambda_i$ $e^{\beta_{1,2}}$

Sean Easter
la source

Une façon d'étudier la taille de l'effet dans le modèle ANOVA consiste à examiner les écarts types de "super population" et de "population finie". Vous avez un tableau à deux voies, il s'agit donc de 3 composantes de variance (2 effets principaux et 1 interaction). Ceci est basé sur l'analyse mcmc. Vous calculez l'écart type pour chaque effet pour chaque échantillon mcmc.

s_{k} = \sqrt{\frac{1}{d_{k} - 1} \sum_{j = 1}^{d_{k}} (β_{k, j} - {\bar{β}}_{k})^{2}}

$s_k=\sqrt{\frac{1}{d_k-1}\sum_{j=1}^{d_k}(\beta_{k, j}-\overline {\beta}_k)^2}$

$k$ $s_k$ $k$

Andrew Gelman a préconisé cette approche. Voir son article de 2005 "Analyse de la variance: pourquoi elle est plus importante que jamais"

probabilitéislogique
la source

Ce document est disponible ici .

Sean Easter

Ces deux réponses semblent très prometteuses, merci. Êtes-vous suffisamment familier pour Rmontrer comment il pourrait être programmé?

Ben

@seaneaster - merci d'avoir ajouté le lien. @ben, ces calculs sont simples en R. Cependant, je ne suis pas sûr de la forme de vos échantillons. Vous devriez pouvoir l'utiliser en sd ()combinaison avec l'une des fonctions "appliquer". Quant aux boîtes à moustaches, elles sont simples à obtenir avec celles de base boxplot ().

probabilityislogic

Merci, pouvez-vous démontrer l'utilisation des exemples de données et de code dans ma question?

Ben

En bref, non parce que je ne comprends pas le code que vous avez publié - je ne vois pas comment les données sont organisées. Et comme je l'ai dit, ce n'est pas une analyse difficile à faire vous-même. Cette approche consiste à calculer une mesure simple (écart type). De plus, le codage R ne fait pas partie de votre question - vous avez demandé comment résumer l'analyse du tableau de contingence.

Probabilogic