Que sont exactement les données censurées?

14

J'ai lu différentes descriptions de données censurées:

A) Comme expliqué dans ce fil, les données non quantifiées inférieures ou supérieures à un certain seuil sont censurées. Non quantifié signifie que les données sont supérieures ou inférieures à un certain seuil, mais nous ne connaissons pas la valeur exacte. Les données sont ensuite marquées à la valeur seuil basse ou haute dans le modèle de régression. Cela correspond à la description de cette présentation , que j'ai trouvée très claire (2e diapositive sur la première page). En d'autres termes, Y est limité à une valeur minimale, maximale ou les deux parce que nous ne connaissons pas la vraie valeur en dehors de cette plage.

B) Un ami m'a dit que nous pouvons appliquer un modèle de données censuré à des observations partiellement inconnuesY , à condition que nous ayons au moins quelques informations limites sur les résultats inconnus Yi. Par exemple, nous voulons estimer le prix final pour un mélange d'enchères silencieuses et ouvertes sur la base de certains critères qualitatifs (type de biens, pays, richesse des soumissionnaires, etc.). Alors que pour les enchères ouvertes, nous connaissons tous les prix finaux Yi , pour les enchères silencieuses, nous ne connaissons que la première offre (disons, 1 000 $) mais pas le prix final. On m'a dit que dans ce cas, les données sont censurées d'en haut et qu'un modèle de régression censuré devrait être appliqué.

C) Enfin, il y a la définition donnée par Wikipedia manque complètement mais les prédicteurs sont disponibles. Je ne sais pas en quoi cet exemple est différent des données tronquées.Y

Alors, quelles sont exactement les données censurées?

Robert Kubrick
la source
6
L'article de Wikipédia le plus pertinent se trouve sur en.wikipedia.org/wiki/Censoring_%28statistics%29 . Bien qu'il ne soit pas exhaustif, il décrit au moins la censure de type I et de type II et reconnaît la censure d'intervalle ainsi que la censure gauche et droite.
whuber

Réponses:

8

Considérons les données suivantes sur un résultat et une covariable x :yx

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

Pour l'utilisateur 1, nous avons les données complètes. Pour tout le monde, nous avons des données incomplètes. Les utilisateurs 2, 3 et 4 sont tous censurés: le résultat correspondant aux valeurs connues de la covariable n'est pas observé ou n'est pas observé exactement (gauche, droite et censuré par intervalles). Parfois, il s'agit d'un artefact des considérations de confidentialité dans la conception de l'enquête. À d'autres moments, cela se produit pour d'autres raisons. Par exemple, nous n'observons aucun salaire inférieur au salaire minimum ou la demande réelle de billets de concert au-dessus de la capacité de l'arène.

L'utilisateur 5 est tronqué: le résultat et la covariable sont manquants. Cela se produit généralement parce que nous collectons uniquement des données sur les personnes qui ont fait quelque chose. Par exemple, nous enquêtons uniquement sur les personnes qui ont acheté quelque chose ( ), donc nous excluons toute personne avec y = 0 avec leur xy>0y=0x s. Nous n'avons peut-être même pas de ligne pour ce type d'utilisateur dans les données, bien que nous sachions qu'elles existent parce que nous connaissons la règle qui a été utilisée pour générer notre échantillon. Un autre exemple est la troncature accidentelle : nous n'observons que les offres de salaire pour les personnes qui font partie de la population active, car nous supposons que l'offre de salaire est le salaire lorsque vous travaillez. La troncature est fortuite car elle ne dépend pas de y, mais sur une autre variable.

En bref, la troncature implique une perte d'informations plus importante que la censure (points A et B). Ces deux types de "disparitions" sont systématiques.

Travailler avec ce type de données implique généralement de faire une hypothèse de distribution forte sur l'erreur et de modifier la probabilité de prendre cela en compte. Des approches semi-paramétriques plus flexibles sont également possibles. Ceci est implicite dans votre point B.

Dimitriy V. Masterov
la source
2
Deux aspects de cette réponse me confondent. Premièrement, les valeurs purement manquantes ne reflètent pas nécessairement la troncature. Deuxièmement, la manière de censurer ("aléatoire" vs "informative") est souvent aussi importante que le fait de censurer, indiquant qu'il y a plus à censurer que le simple enregistrement de données à intervalles.
whuber
Ceci est un très bon exemple. Cela signifie-t-il que différentes «limites de censure» peuvent être appliquées à chaque ? Comment formulons-nous le modèle dans ce cas? Cela validerait ma déclaration d'ami en B). y
Robert Kubrick
1
Si vous êtes prêt à supposer des erreurs homoscédastiques et normalement distribuées, la probabilité peut être écrite comme ceci et vous pouvez utiliser MLE avec des seuils de censure spécifiques à l'observation.
Dimitriy V. Masterov
3
@Peter N'est-ce pas (à droite) la censure? La troncature se produirait lorsque toutes ces personnes sont exclues de l'échantillon et ne sont pas comptées du tout. Voir en.wikipedia.org/wiki/Truncation_(statistics) .
whuber
1
@Peter Ce qui prête à confusion, c'est que vous écrivez "alors nous savons que l'IMC de cette personne est supérieur à 30": comment pouvez-vous éventuellement vous référer à quelqu'un qui ne fait même pas partie de votre échantillon ("n'a pas été compté")? Une observation de la forme "IMC> 30" est censurée tandis que l'exclusion complète de toutes ces observations de votre analyse, même lorsqu'elles peuvent exister dans la population, est une troncature. Dans ce dernier cas, tout ce que vous pouvez dire est que "les personnes ayant un IMC supérieur à 30 ont été exclues de l'échantillon".
whuber
9

De manière descriptive, je proposerais "un échantillon de données est censuré si certaines observations qu'il contient prennent ou constituent les valeurs extrêmes de l'échantillon, mais leur vraie valeur est en dehors de la plage d'échantillonnage observée". Mais c'est d'une simplicité trompeuse.

Voyons donc d'abord comment conclure qu'un ensemble de données est censuré, ce qui nous amènera naturellement à discuter des cas présentés dans la question.

Supposons que l'on nous donne l'ensemble de données suivant à partir d'une variable aléatoire discrète , pour laquelle la seule chose que nous savons est qu'elle n'est pas négative:X

{0,1,1,2,2,2,2,2,2,2}

Peut-on dire que l'ensemble de données est censuré? Eh bien, nous avons le droit de penser que ce pourrait être le cas, mais ce n'est pas nécessairement le cas:

1) peut avoir l'intervalle { 0 , 1 , 2 } et une distribution de probabilité { 0,1 , 0,1 , 0,8 } . Si c'est effectivement le cas, il semble qu'il n'y ait pas de censure ici, juste un échantillon "anticipé" d'une telle variable aléatoire, avec un support borné et une distribution très asymétrique. X{0,1,2}{0.1,0.1,0.8}

2) Mais il peut être le cas que a la plage { 0 , 1 , . . . , 9 } avec une distribution uniforme de probabilité { 0,1 , 0,1 , . . .0 .1 } , auquel cas notre échantillon de données est très probablement censuré. X{0,1,...,9}{0.1,0.1,...0.1}

Comment savoir? Nous ne pouvons pas, sauf si nous possédons des connaissances ou des informations préalables , qui nous permettront de plaider en faveur de l'un ou l'autre cas. Les trois cas présentés dans la question représentent-ils une connaissance préalable de l'effet de la censure? Voyons voir:

Le cas A) décrit une situation où, pour certaines observations, nous n'avons que des informations qualitatives comme «très grandes», «très petites», etc., ce qui nous amène à attribuer à l'observation une valeur extrême. Notez que le simple fait de ne pas connaître la valeur réelle réalisée ne justifie pas l'attribution d'une valeur extrême. Il faut donc avoir quelques informations à l'effet que pour ces observations, leur valeur dépasse ou est inférieure à toutes celles observées. Dans ce cas, la plage réelle de la variable aléatoire est inconnue, mais nos informations qualitatives nous permettent de créer un échantillon censuré (c'est une autre discussion pour savoir pourquoi nous ne supprimons pas simplement les observations pour lesquelles nous ne possédons pas la valeur réelle réalisée). ).

Le cas B) n'est pas un cas de censure, si je comprends bien, mais plutôt un cas d'échantillon contaminé: nos informations a priori nous disent que la valeur maximale de la variable aléatoire ne peut pas dépasser (en raison par exemple d'une loi physique ou d'un droit social -supposons que ce sont les données de notes d'un système de notation qui utilise uniquement les valeurs 1 , (en fait, en regardant le clavier latéral d'un ordinateur, il est plus probable que le 43 ). Mais nous avons également observé la valeur 4 et la valeur 5 . Comment se peut-il? Erreur dans l'enregistrement des données. Mais dans un tel cas, nous ne savons pas avec certitude que les 4 et 5 devraient être tous les 31,2,3454534 sont des et les 5 des 2 !). En «corrigeant» de quelque manière que ce soit l'échantillon, nous ne le rendons pas censuré, car la variable aléatoire n'est pas censée se situer dans la plage enregistrée en premier lieu (il n'y a donc pas de vrais probabilités attribuées aux valeurs 4 et 5 ). 15245

Le cas C) fait référence à un échantillon conjoint, où nous avons une variable dépendante et des prédicteurs. Ici, nous pouvons avoir un échantillon où les valeurs de la variable dépendante sont concentrées à l'un ou aux deux extrêmes, en raison de la structure du phénomène étudié: Dans l'exemple habituel "heures travaillées", les chômeurs ne travaillent pas mais ils auraient a bien fonctionné (réfléchissez bien: ce cas relève-t-il vraiment de la "définition" descriptive au début de cette réponse?). Les inclure dans la régression avec des heures enregistrées «zéro» crée donc un biais. À l'autre extrême, le nombre maximal d'heures travaillées peut être considéré comme pouvant atteindre, disons 16/ jour, et il peut y avoir des employés qui seraient prêts à travailler autant pour un salaire donné. Mais le cadre juridique ne le permet pas et nous n'observons donc pas de telles "heures travaillées". Ici, nous essayons d'estimer la " fonction d'offre de travail prévue " - et c'est par rapport à cette variable que l'échantillon est caractérisé comme censuré.
Mais si nous déclarions que ce que nous voulons faire est d'estimer "la fonction d'offre de travail compte tenu du phénomène du chômage et du cadre juridique", l'échantillon ne serait pas censuré, car il refléterait l'effet de ces deux aspects, ce que nous voulons à faire.

Nous voyons donc que caractériser un échantillon de données comme censuré
a) peut provenir de situations différentes et
b) nécessite une certaine attention
- à lui seul le fait qu'il peut être confondu avec le cas de la troncature .

Alecos Papadopoulos
la source
6
Cela semble être une perspective économétrique. Notez qu'il est courant dans la recherche biomédicale d'avoir des durées (peut-être littéralement la survie) comme réponse, et de censurer les patients en n'ayant pas vécu l'événement à la fin de la période d'observation. Mais aussi d'avoir des patients décrocheurs ou perdus de vue pendant la période d'observation. (Peut-être qu'ils se sont éloignés et que le contact a été perdu.) Nous pouvons savoir que le temps de survie est> le dernier contact, mais pourrait être plus court que la fin de la période d'observation.
gung - Réintégrer Monica
Le cas B n'est pas pour des données erronées ou contaminées. Supposons que nous voulions estimer le prix final d'un mélange d' enchères silencieuses et ouvertes sur la base de certains critères qualitatifs (type de biens, pays, richesse des soumissionnaires, ...). Pour les enchères silencieuses, nous ne connaissons que la première offre (disons, 1 000 $) mais pas le prix final. On m'a dit que nous pouvions utiliser les données des enchères silencieuses en utilisant une forme de modélisation censurée.
Robert Kubrick
1
@gung c'est certainement une approche économétrique, étant donné qui a écrit la réponse!
Alecos Papadopoulos
1
@RobertKunrick Ce que vous décrivez ne correspond pas au cas B. De la façon dont le cas B est décrit, nous observons une plage de valeurs, puis on nous dit que certaines des valeurs observées sont en réalité impossibles. Comment cela correspond-il à l'exemple des enchères?
Alecos Papadopoulos
S'il vous plaît ne prenez pas cela comme une critique, @AlecosPapadopoulos. Je ne pense pas qu'il y ait quelque chose de mal. Je veux juste souligner que les termes sont utilisés différemment dans différents domaines, et ce n'est pas la convention qui est stat / biostat.
gung - Réintégrer Monica
2

ZiZi=ziZiaiaiAiAiZZiAiAiZiAiI(ZiA)AAiZiAiZi

[ZiZiai]ZiZi=(Xi,Yi)Yiai={x}×Y where Y is the sample space of Y and say Zi is missing if ai=Z. When one says "Zi is censored", if they are following my definition, what they usually mean is "Zi is censored, but is not missing".

guy
la source
1

It's important to distinguish censored versus truncated as well as missing data.

Censoring applies specifically to the issue of survival analysis and time-to-event outcomes wherein the event at hand is assumed to have occurred at some time past the point at which you stopped observing that individual. An example is men-who-have-sex-with-men (MSM) and the risk of incident HIV in a prospective study who move and cease contact with study coordinators.

Truncation applies to a continuous variable that evaluates to a specific point at which the actual value is known to be either greater than or less than that point. An example is the monitoring of subjects with HIV and the development of full blown AIDS, CD4 cell counts falling below 300 are evaluated to the lower-limit-of-detection 300.

Lastly, missing data are data that have actual values that are not observed in any sense. Censored data are not missing time-to-event data nor are they truncated.

AdamO
la source
1
There's another use of "truncation": to describe a data-generating process where observations above/below cut-offs are unobtainable. A classic example involves counting the no.eggs found in the nests of a particular bird species, where the species can only be identified from the egg; empty nests could be from any species so the no. zeroes is unknown. If the no. eggs follows a Poisson distribution, the egg counts from non-empty nests follow a truncated Poisson. So truncation produces missing data according to a specific well defined mechanism.
Scortchi - Reinstate Monica
1
... Your cell count data are indeed censored according to many people's understanding of the term, which is not restricted to time-to-event measurements, because you know everything about each subject except how far below 300 his cell count is; "truncation" here (alternatively "Winsorization") describes the method of analysis, viz the treatment of values below 300 as if they were equal to 300.
Scortchi - Reinstate Monica
A clear reference on the survival analysis concept of censoring: itl.nist.gov/div898/handbook/apr/section1/apr131.htm.
Eric O Lebigot
-1
  1. Censored: This is a term used to indicate that the period of observation was cut off before the event of interest occurred. So ''censored data'' indicate that the period of a particular event as not or never occurred
Abdulfatah Lawal
la source
3
Welcome to the site. If this is copied from some source, please cite the source.
gung - Reinstate Monica
3
Censoring applies to much more than time-dependent observations. For instance, chemical concentrations measurements that are below the limit of detection are censored, too.
whuber
@whuber: May I offer a friendly amendment to that observation. The chemical concentrations that fall below the limit of detection are indeed censored, but since they cannot possibly be negative, analyses should consider them as truncated at zero. My own understanding of the truncation-censoring distinction is that truncation applies to the range of parameters that are possible for the underlying distribution.
DWin
@DWin Thank you for that thoughtful clarification. I can only agree with the first point. In the great majority of datasets I have analyzed, though, it was necessary to re-express concentrations as logarithms--and there the distinction disappears. In other datasets where background has been subtracted (such as radiological measurements), there is no definite left endpoint, either. Your second point strikes me as unusual: I have never seen "truncation" used to refer to creating a subset of a distribution family.
whuber