Existe-t-il une branche des statistiques qui traite des données dont les valeurs exactes ne sont pas connues , mais pour chaque individu, nous connaissons un maximum ou un minimum lié à la valeur ?
Je soupçonne que mon problème provient en grande partie du fait que j'ai du mal à l'articuler en termes statistiques, mais j'espère qu'un exemple aidera à clarifier:
Supposons qu'il existe deux populations connectées et telles que, à un moment donné, les membres de peuvent «passer» en , mais l'inverse n'est pas possible. Le moment de la transition est variable, mais non aléatoire. Par exemple, pourrait être "des individus sans progéniture" et "des individus avec au moins une progéniture". Je m'intéresse à l'âge de cette progression, mais je n'ai que des données transversales. Pour toute personne, je peux donnée savoir si elles appartiennent à ou . Je connais également l'âge de ces individus. Pour chaque individu de la populationB A B A B A B A B, Je sais que l'âge à la transition sera PLUS GRAND QUE leur âge actuel. De même, pour les membres de , je sais que l'âge à la transition était inférieur à leur âge actuel. Mais je ne connais pas les valeurs exactes.
Disons que j'ai un autre facteur que je veux comparer avec l'âge de la transition. Par exemple, je veux savoir si la sous-espèce ou la taille d'un individu affecte l'âge de la première progéniture. J'ai certainement des informations utiles qui devraient éclairer ces questions: en moyenne, des individus en , les individus plus âgés auront une transition ultérieure. Mais l'information est imparfaite , en particulier pour les jeunes. Et vice versa pour la population .B
Existe-t-il des méthodes établies pour traiter ce type de données ? Je n'ai pas nécessairement besoin d'une méthode complète pour mener à bien une telle analyse, juste de quelques termes de recherche ou de ressources utiles pour me lancer au bon endroit!
Mises en garde: Je fais l'hypothèse simplificatrice que la transition de à est instantanée. Je suis également prêt à supposer que la plupart des individus progresseront à un moment donné vers , en supposant qu'ils vivent assez longtemps. Et je me rends compte que les données longitudinales seraient très utiles, mais supposons qu'elles ne sont pas disponibles dans ce cas.B B
Toutes mes excuses s'il s'agit d'un doublon, comme je l'ai dit, une partie de mon problème est que je ne sais pas ce que je dois rechercher. Pour la même raison, veuillez ajouter d'autres balises le cas échéant.
Ensemble de données échantillon: Ssp indique l' un des deux sous - espèces, ou . La progéniture indique soit aucune progéniture ( ) ou au moins une progéniture ( )Y A B
age ssp offsp
21 Y A
20 Y B
26 X B
33 X B
33 X A
24 X B
34 Y B
22 Y B
10 Y B
20 Y A
44 X B
18 Y A
11 Y B
27 X A
31 X B
14 Y B
41 X B
15 Y A
33 X B
24 X B
11 Y A
28 X A
22 X B
16 Y A
16 Y B
24 Y B
20 Y B
18 X B
21 Y B
16 Y B
24 Y A
39 X B
13 Y A
10 Y B
18 Y A
16 Y A
21 X A
26 X B
11 Y A
40 X B
8 Y A
41 X B
29 X B
53 X B
34 X B
34 X B
15 Y A
40 X B
30 X A
40 X B
Modifier: l'exemple de jeu de données a été modifié car il n'était pas très représentatif
la source
Réponses:
Il s'agit des données d'état actuelles . Vous obtenez une vue transversale des données, et en ce qui concerne la réponse, tout ce que vous savez, c'est qu'à l'âge observé de chaque sujet, l'événement (dans votre cas: transition de A à B) s'est produit ou non. Il s'agit d'un cas particulier de censure d'intervalle .
Plug sans vergogne: si vous souhaitez utiliser des modèles de régression pour analyser vos données, cela peut être fait dans R en utilisant
icenReg
(je suis l'auteur). En fait, dans une question similaire sur les données d'état actuelles , l'OP a mis en place une belle démonstration de l'utilisation d'icenReg . Il commence par montrer que l'ignorance de la partie censure et l'utilisation de la régression logistique conduisent à des biais (note importante: il fait référence à l'utilisation de la régression logistique sans ajustement pour l'âge . Plus d'informations à ce sujet plus tard.)Un autre excellent package est
interval
, qui contient des tests statistiques de log-rank, entre autres outils.MODIFIER:
@EdM a suggéré d'utiliser la régression logistique pour répondre au problème. J'étais injustement dédaigneux de cela, disant que vous auriez à vous soucier de la forme fonctionnelle du temps. Bien que je soutienne l'affirmation selon laquelle vous devriez vous soucier de la forme fonctionnelle du temps, j'ai réalisé qu'il y avait une transformation très raisonnable qui conduit à un estimateur paramétrique raisonnable.
En particulier, si nous utilisons log (temps) comme covariable dans notre modèle avec régression logistique, nous nous retrouvons avec un modèle de cotes proportionnelles avec une ligne de base log-logistique.
Pour voir cela, considérons d'abord que le modèle de régression des cotes proportionnelles est défini comme
Considérons maintenant une régression logistique avec log (Time) comme covariable. Nous avons alors
Avec un peu de travail, vous pouvez voir cela comme le CDF d'un modèle log-logistique (avec une transformation non linéaire des paramètres).
Démonstration R que les ajustements sont équivalents:
Notez que l'effet de
grp
est le même dans chaque modèle, et la log-vraisemblance finale ne diffère que par l'erreur numérique. Les paramètres de base (c.-à-d. Interception et log_age pour la régression logistique, alpha et bêta pour le modèle censuré par intervalles) sont des paramétrisations différentes de sorte qu'ils ne sont pas égaux.Donc voilà: l'utilisation de la régression logistique équivaut à ajuster les cotes proportionnelles avec une distribution log-logistique de référence. Si vous êtes d'accord avec l'ajustement de ce modèle paramétrique, la régression logistique est tout à fait raisonnable. Je préviens qu'avec des données censurées par intervalles, les modèles semi-paramétriques sont généralement privilégiés en raison de la difficulté d'évaluer l'ajustement du modèle, mais si je pensais vraiment qu'il n'y avait pas de place pour les modèles entièrement paramétriques, je ne les aurais pas inclus
icenReg
.la source
ic_sp
inicenReg
) et ne vous inquiétez pas du tout à ce sujet. De plus, regarder les courbes de survie des deux groupes répond correctement à votre question. Essayer de recréer cela à partir de l'ajustement logistique pourrait être fait, mais encore une fois, beaucoup plus de travail que d'utiliser des modèles de survie.la source
Ce problème semble pouvoir être bien géré par régression logistique.
Vous avez deux états, A et B, et vous souhaitez examiner la probabilité qu'un individu particulier soit passé de manière irréversible de l'état A à l'état B. Une variable prédictive fondamentale serait l'âge au moment de l'observation. L'autre ou les autres facteurs d'intérêt seraient des variables prédictives supplémentaires.
Votre modèle logistique utiliserait alors les observations réelles de l'état A / B, de l'âge et d'autres facteurs pour estimer la probabilité d'être dans l'état B en fonction de ces prédicteurs. L'âge auquel cette probabilité passe à 0,5 pourrait être utilisé comme estimation du temps de transition, et vous examineriez ensuite les influences des autres facteurs sur ce temps de transition prévu.
Ajouté en réponse à la discussion:
Comme pour tout modèle linéaire, vous devez vous assurer que vos prédicteurs sont transformés de manière à avoir une relation linéaire avec la variable de résultat, dans ce cas, les log-odds de la probabilité d'être passé à l'état B. Ce n'est pas nécessairement un problème trivial. La réponse de @CliffAB montre comment une transformation logarithmique de la variable d'âge pourrait être utilisée.
la source