J'ai lu différentes descriptions de données censurées:
A) Comme expliqué dans ce fil, les données non quantifiées inférieures ou supérieures à un certain seuil sont censurées. Non quantifié signifie que les données sont supérieures ou inférieures à un certain seuil, mais nous ne connaissons pas la valeur exacte. Les données sont ensuite marquées à la valeur seuil basse ou haute dans le modèle de régression. Cela correspond à la description de cette présentation , que j'ai trouvée très claire (2e diapositive sur la première page). En d'autres termes, est limité à une valeur minimale, maximale ou les deux parce que nous ne connaissons pas la vraie valeur en dehors de cette plage.
B) Un ami m'a dit que nous pouvons appliquer un modèle de données censuré à des observations partiellement inconnues , à condition que nous ayons au moins quelques informations limites sur les résultats inconnus . Par exemple, nous voulons estimer le prix final pour un mélange d'enchères silencieuses et ouvertes sur la base de certains critères qualitatifs (type de biens, pays, richesse des soumissionnaires, etc.). Alors que pour les enchères ouvertes, nous connaissons tous les prix finaux , pour les enchères silencieuses, nous ne connaissons que la première offre (disons, 1 000 $) mais pas le prix final. On m'a dit que dans ce cas, les données sont censurées d'en haut et qu'un modèle de régression censuré devrait être appliqué.
C) Enfin, il y a la définition donnée par Wikipedia où manque complètement mais les prédicteurs sont disponibles. Je ne sais pas en quoi cet exemple est différent des données tronquées.
Alors, quelles sont exactement les données censurées?
la source
Réponses:
Considérons les données suivantes sur un résultat et une covariable x :y x
Pour l'utilisateur 1, nous avons les données complètes. Pour tout le monde, nous avons des données incomplètes. Les utilisateurs 2, 3 et 4 sont tous censurés: le résultat correspondant aux valeurs connues de la covariable n'est pas observé ou n'est pas observé exactement (gauche, droite et censuré par intervalles). Parfois, il s'agit d'un artefact des considérations de confidentialité dans la conception de l'enquête. À d'autres moments, cela se produit pour d'autres raisons. Par exemple, nous n'observons aucun salaire inférieur au salaire minimum ou la demande réelle de billets de concert au-dessus de la capacité de l'arène.
L'utilisateur 5 est tronqué: le résultat et la covariable sont manquants. Cela se produit généralement parce que nous collectons uniquement des données sur les personnes qui ont fait quelque chose. Par exemple, nous enquêtons uniquement sur les personnes qui ont acheté quelque chose ( ), donc nous excluons toute personne avec y = 0 avec leur xy>0 y=0 x s. Nous n'avons peut-être même pas de ligne pour ce type d'utilisateur dans les données, bien que nous sachions qu'elles existent parce que nous connaissons la règle qui a été utilisée pour générer notre échantillon. Un autre exemple est la troncature accidentelle : nous n'observons que les offres de salaire pour les personnes qui font partie de la population active, car nous supposons que l'offre de salaire est le salaire lorsque vous travaillez. La troncature est fortuite car elle ne dépend pas de y , mais sur une autre variable.
En bref, la troncature implique une perte d'informations plus importante que la censure (points A et B). Ces deux types de "disparitions" sont systématiques.
Travailler avec ce type de données implique généralement de faire une hypothèse de distribution forte sur l'erreur et de modifier la probabilité de prendre cela en compte. Des approches semi-paramétriques plus flexibles sont également possibles. Ceci est implicite dans votre point B.
la source
De manière descriptive, je proposerais "un échantillon de données est censuré si certaines observations qu'il contient prennent ou constituent les valeurs extrêmes de l'échantillon, mais leur vraie valeur est en dehors de la plage d'échantillonnage observée". Mais c'est d'une simplicité trompeuse.
Voyons donc d'abord comment conclure qu'un ensemble de données est censuré, ce qui nous amènera naturellement à discuter des cas présentés dans la question.
Supposons que l'on nous donne l'ensemble de données suivant à partir d'une variable aléatoire discrète , pour laquelle la seule chose que nous savons est qu'elle n'est pas négative:X
Peut-on dire que l'ensemble de données est censuré? Eh bien, nous avons le droit de penser que ce pourrait être le cas, mais ce n'est pas nécessairement le cas:
1) peut avoir l'intervalle { 0 , 1 , 2 } et une distribution de probabilité { 0,1 , 0,1 , 0,8 } . Si c'est effectivement le cas, il semble qu'il n'y ait pas de censure ici, juste un échantillon "anticipé" d'une telle variable aléatoire, avec un support borné et une distribution très asymétrique.X {0,1,2} {0.1,0.1,0.8}
2) Mais il peut être le cas que a la plage { 0 , 1 , . . . , 9 } avec une distribution uniforme de probabilité { 0,1 , 0,1 , . . .0 .1 } , auquel cas notre échantillon de données est très probablement censuré.X {0,1,...,9} {0.1,0.1,...0.1}
Comment savoir? Nous ne pouvons pas, sauf si nous possédons des connaissances ou des informations préalables , qui nous permettront de plaider en faveur de l'un ou l'autre cas. Les trois cas présentés dans la question représentent-ils une connaissance préalable de l'effet de la censure? Voyons voir:
Le cas A) décrit une situation où, pour certaines observations, nous n'avons que des informations qualitatives comme «très grandes», «très petites», etc., ce qui nous amène à attribuer à l'observation une valeur extrême. Notez que le simple fait de ne pas connaître la valeur réelle réalisée ne justifie pas l'attribution d'une valeur extrême. Il faut donc avoir quelques informations à l'effet que pour ces observations, leur valeur dépasse ou est inférieure à toutes celles observées. Dans ce cas, la plage réelle de la variable aléatoire est inconnue, mais nos informations qualitatives nous permettent de créer un échantillon censuré (c'est une autre discussion pour savoir pourquoi nous ne supprimons pas simplement les observations pour lesquelles nous ne possédons pas la valeur réelle réalisée). ).
Le cas B) n'est pas un cas de censure, si je comprends bien, mais plutôt un cas d'échantillon contaminé: nos informations a priori nous disent que la valeur maximale de la variable aléatoire ne peut pas dépasser (en raison par exemple d'une loi physique ou d'un droit social -supposons que ce sont les données de notes d'un système de notation qui utilise uniquement les valeurs 1 , (en fait, en regardant le clavier latéral d'un ordinateur, il est plus probable que le 43 ). Mais nous avons également observé la valeur 4 et la valeur 5 . Comment se peut-il? Erreur dans l'enregistrement des données. Mais dans un tel cas, nous ne savons pas avec certitude que les 4 et 5 devraient être tous les 31,2,3 4 5 4 5 3 4 sont des et les 5 des 2 !). En «corrigeant» de quelque manière que ce soit l'échantillon, nous ne le rendons pas censuré, car la variable aléatoire n'est pas censée se situer dans la plage enregistrée en premier lieu (il n'y a donc pas de vrais probabilités attribuées aux valeurs 4 et 5 ). 1 5 2 4 5
Le cas C) fait référence à un échantillon conjoint, où nous avons une variable dépendante et des prédicteurs. Ici, nous pouvons avoir un échantillon où les valeurs de la variable dépendante sont concentrées à l'un ou aux deux extrêmes, en raison de la structure du phénomène étudié: Dans l'exemple habituel "heures travaillées", les chômeurs ne travaillent pas mais ils auraient a bien fonctionné (réfléchissez bien: ce cas relève-t-il vraiment de la "définition" descriptive au début de cette réponse?). Les inclure dans la régression avec des heures enregistrées «zéro» crée donc un biais. À l'autre extrême, le nombre maximal d'heures travaillées peut être considéré comme pouvant atteindre, disons16 / jour, et il peut y avoir des employés qui seraient prêts à travailler autant pour un salaire donné. Mais le cadre juridique ne le permet pas et nous n'observons donc pas de telles "heures travaillées". Ici, nous essayons d'estimer la " fonction d'offre de travail prévue " - et c'est par rapport à cette variable que l'échantillon est caractérisé comme censuré.
Mais si nous déclarions que ce que nous voulons faire est d'estimer "la fonction d'offre de travail compte tenu du phénomène du chômage et du cadre juridique", l'échantillon ne serait pas censuré, car il refléterait l'effet de ces deux aspects, ce que nous voulons à faire.
Nous voyons donc que caractériser un échantillon de données comme censuré
a) peut provenir de situations différentes et
b) nécessite une certaine attention
- à lui seul le fait qu'il peut être confondu avec le cas de la troncature .
la source
la source
It's important to distinguish censored versus truncated as well as missing data.
Censoring applies specifically to the issue of survival analysis and time-to-event outcomes wherein the event at hand is assumed to have occurred at some time past the point at which you stopped observing that individual. An example is men-who-have-sex-with-men (MSM) and the risk of incident HIV in a prospective study who move and cease contact with study coordinators.
Truncation applies to a continuous variable that evaluates to a specific point at which the actual value is known to be either greater than or less than that point. An example is the monitoring of subjects with HIV and the development of full blown AIDS, CD4 cell counts falling below 300 are evaluated to the lower-limit-of-detection 300.
Lastly, missing data are data that have actual values that are not observed in any sense. Censored data are not missing time-to-event data nor are they truncated.
la source
la source