Discuter des stratégies de régression binomiale et de modélisation

8

Aujourd'hui, j'ai une question sur la régression binomiale / logistique, basée sur une analyse qu'un groupe de mon département a fait et sur laquelle je sollicitais des commentaires. J'ai composé l'exemple ci-dessous pour protéger leur anonymat, mais ils étaient impatients de voir les réponses.

Premièrement, l'analyse a commencé par une réponse binomiale simple 1 ou 0 (par exemple, survie d'une saison de reproduction à la suivante) et l'objectif était de modéliser cette réponse en fonction de certaines co-variées.

Cependant, plusieurs mesures de certaines co-variables étaient disponibles pour certains individus, mais pas pour d'autres. Par exemple, imaginez que la variable x est une mesure du taux métabolique pendant le travail et que les individus varient en nombre de descendants (par exemple, la variable x a été mesurée 3 fois pour l'individu A, mais une seule fois pour l'individu B). Ce déséquilibre n'est pas dû à la stratégie d'échantillonnage des chercheurs en soi, mais reflète les caractéristiques de la population à partir de laquelle ils échantillonnent; certains individus ont plus de descendants que d'autres.

Je dois également souligner que la mesure de la réponse binomiale 0 \ 1 entre les événements de travail n'était pas possible car l'intervalle entre ces événements était assez court. Encore une fois, imaginez que l'espèce en question a une courte saison de reproduction, mais peut donner naissance à plus d'une progéniture au cours de la saison.

Les chercheurs ont choisi d'exécuter un modèle dans lequel ils ont utilisé la moyenne de la variable x comme une covariable et le nombre de descendants qu'un individu a mis au monde comme une autre covariable.

Maintenant, je n'aimais pas cette approche pour un certain nombre de raisons

1) Prendre la moyenne de x signifie perdre des informations sur la variabilité intra-individuelle de x.

2) La moyenne est elle-même une statistique, donc en l'intégrant dans le modèle, nous finissons par faire des statistiques sur les statistiques.

3) Le nombre de descendants d'un individu est dans le modèle, mais il est également utilisé pour calculer la moyenne de la variable x, ce qui, je pense, pourrait causer des problèmes.

Donc, ma question est de savoir comment les gens pourraient-ils modéliser ce type de données?

Pour le moment, j'exécuterais probablement des modèles distincts pour les individus qui avaient une progéniture, puis pour les individus qui avaient deux progénitures, etc. pas convaincu que ce soit beaucoup mieux non plus.

Merci pour votre temps

(PS: je m'excuse que c'est une assez longue question, et j'espère que l'exemple est clair)

user3136
la source
Sont-ils strictement intéressés par la survie d'une saison à l'autre, ou préféreraient-ils modéliser la survie au fil du temps?
Matt Parker

Réponses:

3

Il semble que vous soyez dans une situation difficile, car vous n'avez qu'une seule variable de réponse pour chaque mesure individuelle. J'allais initialement recommander une approche à plusieurs niveaux. Mais pour que cela fonctionne, vous devez observer la réponse au niveau le plus bas - ce que vous ne faites pas - vous observez votre réponse au niveau individuel (qui serait le niveau 2 dans un MLM)

1) Prendre la moyenne de x signifie perdre des informations sur la variabilité intra-individuelle de x.

Vous perdez la variabilité de la covariable x, mais cela n'a d'importance que si les autres informations contenues dans X sont liées à la réponse. Rien ne vous empêche non plus de mettre la variance de X dans une covariable.

2) La moyenne est elle-même une statistique, donc en l'intégrant dans le modèle, nous finissons par faire des statistiques sur les statistiques.

Une statistique est fonction des données observées. Donc, toute covariable est une "statistique". Vous faites donc déjà des "statistiques sur les statistiques", que cela vous plaise ou non. Cependant, cela fait une différence dans la façon dont vous devez interpréter le coefficient de pente - comme une valeur moyenne et non une valeur dans la naissance individuelle. Si vous ne vous souciez pas des naissances individuelles, cela importe peu. Si vous le faites, cette approche peut être trompeuse.

3) Le nombre de descendants d'un individu est dans le modèle, mais il est également utilisé pour calculer la moyenne de la variable x, ce qui, je pense, pourrait causer des problèmes.

Cela n'aurait d'importance que si la moyenne de X était liée de façon fonctionnelle / déterministe au nombre de descendants. Cela peut se produire si la valeur de X est la même pour chaque individu ayant eu le même nombre de naissances. Ce n'est généralement pas le cas.

Vous pouvez spécifier un modèle qui inclut chaque valeur de X comme covariable. Mais cela impliquerait probablement de nouvelles recherches méthodologiques de votre part, j'imagine. Votre fonction de vraisemblance serait différente pour différents individus, en raison du nombre différent de mesures au sein des individus. Je ne pense pas que la modélisation à plusieurs niveaux s'applique conceptuellement dans ce cas . C'est simplement parce que les naissances ne sont pas un sous-ensemble ou un échantillon au sein des individus. Bien que les maths soient les mêmes.

Une façon d'intégrer cette structure est de créer un modèle comme:

(Yij|xij)Bin(Yij|nij,pij)

Où est la réponse binomiale pour l'individu et dénote le nombre de naissances, est les covariables et est le nombre d'individus ayant les mêmes valeurs de covariable et ayant également le même nombre des naissances. est la probabilité que vous modélisez normalement comme:Yijijxijnijpij

g(pjej)=XjejTβ

Pour une fonction monotone / inversible . La partie "délicate" intervient car la dimension de varie avec . La log-vraisemblance dans ce cas est:g(.)Xjejj

L=L(β)=jB[je=1Njlog[Bjen(Ouijej|njej,g-1(XjejTβ))]]

Où est simplement l'ensemble du nombre de naissances dont vous disposez dans votre ensemble de données. Pour maximiser, il est probable que cela ne soit pas une tâche triviale, et vous n'obtiendrez probablement pas les équations IRLS habituelles en faisant des extensions de la série Taylor sur l'estimation actuelle. La série Taylor est la voie que j'irais à partir d'ici - je n'ai tout simplement pas l'énergie pour traverser le processus en ce moment. Je vous suggère d'essayer de réorganiser votre réponse pour qu'elle ressemble à un GLM binomial "ordinaire". Cela vous permettra de profiter du logiciel standard disponible.B

Ce que je peux vous dire, c'est que lorsque vous vous différenciez par rapport à un bêta qui dépend de (par exemple le coefficient du taux métabolique pour la troisième naissance), certains termes de cette sommation disparaîtront. Il s'agit essentiellement de la probabilité de «vous dire» que certaines observations ne contribuent en rien à l'estimation de certains paramètres (par exemple, les individus qui donnent naissance à deux descendants ou moins ne contribuent en rien à la pente estimée du taux métabolique pour la troisième naissance).j

Donc, en résumé, votre intuition est parfaite lorsque vous suggérez que quelque chose se perd. Cependant, le prix de la «pureté» pourrait être élevé - surtout si vous devez écrire votre propre algorithme pour obtenir vos estimations.

probabilitéislogique
la source
2

Je pense que vous pourriez explorer un modèle mixte non linéaire; cela devrait vous permettre d'utiliser efficacement les données dont vous disposez. Mais si relativement peu de sujets ont plusieurs mesures, cela n'aura pas beaucoup d'importance et pourrait ne pas bien fonctionner (je pense qu'il pourrait y avoir des problèmes de convergence).

Si vous utilisez SAS, vous pouvez utiliser PROC GLIMMIX; si vous utilisez RI, lme4 devrait être utile.

Peter Flom
la source