Je lis A. Agresti (2007), An Introduction to Categorical Data Analysis , 2nd. édition, et je ne sais pas si je comprends bien ce paragraphe (p.106, 4.2.1) (bien que cela devrait être facile):
Dans le tableau 3.1 sur le ronflement et les maladies cardiaques du chapitre précédent, 254 sujets ont signalé des ronflements chaque nuit, dont 30 avaient des maladies cardiaques. Si le fichier de données contient des données binaires groupées, une ligne du fichier de données signale ces données comme 30 cas de maladie cardiaque sur un échantillon de 254. Si le fichier de données contient des données binaires non groupées, chaque ligne du fichier de données fait référence à un sujet séparé, donc 30 lignes contiennent un 1 pour les maladies cardiaques et 224 lignes contiennent un 0 pour les maladies cardiaques. Les estimations ML et SE sont les mêmes pour les deux types de fichiers de données.
Transformer un ensemble de données non groupées (1 dépendant, 1 indépendant) prendrait plus qu'une "ligne" pour inclure toutes les informations!?
Dans l'exemple suivant, un ensemble de données simple (irréaliste!) Est créé et un modèle de régression logistique est créé.
À quoi ressembleraient réellement les données groupées (onglet variable?)? Comment créer le même modèle à l'aide de données groupées?
> dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0))
> dat
y x
1 0 1
2 1 1
3 0 0
4 1 0
5 0 0
> tab=table(dat)
> tab
x
y 0 1
0 2 1
1 1 1
> mod1=glm(y~x, data=dat, family=binomial())
la source
tab <- table(x,y, dnn=c('snoring','disease')); glm(tab ~ as.numeric(rownames(tab)), family=binomial)
cela fonctionnerait (inversion du signe moins pour les coefficients parce que "Oui" est codé 0 au lieu de 1).