J'ai deux ans de données qui ressemblent essentiellement à ceci:
Date _ __ Violence O / N? _ Nombre de patients
1/1/2008 _ ___ 0 __ _ __ _ ____ 11
2/1/2008 _ __ _ 0 _ __ _ __ _ __ 11
1/3/2008 _ ____ 1 __ _ __ _ ____ 12
4/1/2008 _ ____ 0 __ _ __ _ ____ 12
...
31/12 / 2009_ _ __ 0_ _ __ _ __ _ __ 14
soit deux ans d'observations, une par jour, d'un service psychiatrique, qui indiquent s'il y a eu un incident de violence ce jour-là (1 est oui, 0 non) ainsi que le nombre de patients dans le service. L'hypothèse que nous souhaitons tester est que davantage de patients en salle sont associés à une probabilité accrue de violence en salle.
Nous réalisons, bien sûr, que nous devrons nous adapter au fait que lorsqu'il y a plus de patients dans la salle, la violence est plus probable parce qu'il y en a juste plus - nous voulons savoir si la probabilité de violence de chaque individu augmente lorsque il y a plus de patients dans le service.
J'ai vu plusieurs articles qui utilisent simplement la régression logistique, mais je pense que c'est faux car il existe une structure autorégressive (bien que, en regardant la fonction d'autocorrélation, elle ne dépasse pas 0,1 à aucun décalage, bien que ce soit au-dessus du Ligne "en pointillé bleu" significative que R trace pour moi).
Juste pour compliquer les choses, je peux le faire si je souhaite décomposer les résultats en patients individuels, afin que les données soient identiques à celles ci-dessus, sauf que j'aurais les données pour chaque patient, 1/1/2008, 2 / 1/2008, etc. et un code d'identification sur le côté afin que les données montrent séparément l'historique complet des incidents pour chaque patient (bien que tous les patients ne soient pas présents tous les jours, je ne sais pas si cela importe).
Je voudrais utiliser lme4 en R pour modéliser la structure autorégressive au sein de chaque patient, mais certains googlings proposent la citation «lme4 n'est pas configuré pour gérer les structures autorégressives». Même si c'était le cas, je ne suis pas sûr de savoir comment écrire le code de toute façon.
Juste au cas où quelqu'un le remarquerait, j'ai posé une question comme celle-ci il y a un moment, ce sont différents ensembles de données avec différents problèmes, bien que la résolution de ce problème puisse aider avec celui-ci (quelqu'un a suggéré d'utiliser des méthodes mixtes auparavant, mais cette autorégression m'a rendu Je ne sais pas comment faire).
Je suis donc un peu coincé et perdu pour être honnête. Toute aide reçue avec reconnaissance!
la source
pgmm
partir du package plm , mais comme votre variable de réponse est binaire, je ne sais pas exactement comment le faire. Peut-être que d'autres peuvent élaborer ... (Et oui, vous avez raison: je crois que chaque fois que vous avez une variable endogène, dans ce cas la valeur décalée, vous ne pouvez pas utiliser REML pour estimer car elle est biaisée, vous devez donc utiliser GMM .)Réponses:
Voici une idée qui relie votre variable dépendante binaire à une variable continue et non observée; une connexion qui peut vous permettre de tirer parti de la puissance des modèles de séries chronologiques pour les variables continues.
Définir:
où,
où,
la source