Censure droite et censure gauche

10

Wikipedia donne les définitions suivantes:

Censure à droite : un point de données est au-dessus d'une certaine valeur mais il est inconnu de combien.
Censure gauche : un point de données est en dessous d'une certaine valeur mais il n'est pas connu de combien.

Dans ces définitions, que signifie:

  • "point de données"
  • "certaine valeur", et
  • "combien"

En général, qu'est-ce que la censure droite et gauche?

La déclaration ci-dessous est-elle vraie:

"Dans la censure de droite, nous n'avons que la limite inférieure pour la valeur censurée."

Quelle serait la déclaration analogue pour la censure de gauche?

abc
la source
Consultez également stats.stackexchange.com/questions/197628/… pour en savoir plus sur la censure.
Tim

Réponses:

14

Comme l'étiquette de survie est utilisée, j'ajouterai une réponse offrant quelques exemples avec une saveur d'analyse de survie.

Point de données

Par point de données, nous entendons simplement une observation, c'est-à-dire le résultat d'une ou plusieurs variables. Par exemple, nous pourrions avoir les éléments suivants dans un ensemble de données: la personne 1 dans notre étude est un homme et décède à 58 ans. Nous pourrions considérer cela comme un point de données. Mais dans votre exemple, il est clair que le point de données se compose uniquement du résultat d'une variable, par exemple 58.

Censure à droite

Si nous modélisons le temps de l'échec, il y a une raison évidente de censure, à savoir que nous n'avons pas nécessairement le temps d'attendre que tous les sujets échouent. Disons que nous testons l'effet des vaccins pour enfants. Si nous devions mener un essai randomisé, le dernier de nos sujets mourrait dans cent ans ou plus à partir de maintenant. Cela introduit naturellement la censure, dans ce cas la censure à droite, car nous aurions à un moment donné à dire "nous ne savons pas combien de temps cette personne vivra, nous savons seulement qu'elle est toujours en vie". Une censure à droite peut également se produire si les personnes participant à l'essai randomisé sont perdues de vue, par exemple, elles peuvent vouloir interrompre leur participation à l'étude ou s'éloigner. Ce sont des exemples de censure à droite, fondamentalement, nous ' Nous nous intéressons à la longévité de nos sujets, mais en raison de circonstances pratiques, nous n'avons que des observations censurées, ce qui signifie que pour certains sujets, nous ne saurons jamais quand ils meurent, mais qu'à un certain moment (le temps de la censure), ils étaient encore en vie. Ainsi, nous savons que pour un individu censuré, le point de données (moment du décès) est supérieur à une certaine valeur (le temps de censure).

Censure à gauche

Comme exemple de censure à gauche, considérez ce qui suit. Disons qu'une troupe de babouins dort toujours dans les arbres. Nous voulons estimer à quelle heure du matin ils descendent des arbres, et supposons qu'ils descendent tous les jours. Nous les suivons pendant plusieurs jours, cependant, nous aimons dormir, ce qui signifie que certains jours, ils descendent avant même d'arriver sur les lieux. Si nous arrivons à 9 h le jour et que les babouins sont déjà descendus, nous avons laissé des données censurées. Nous voulons savoir quand ils sont descendus, mais tout ce que nous avons est une limite supérieure (9 h), car nous savons qu'à notre heure d'arrivée, ils étaient déjà descendus. De façon analogue, nous savons maintenant que le point de données (heure de descente au jour ) est inférieur à une certaine valeur (9 h).xx

Cet exemple est tiré de

Andersen, PK, Borgan, Ø., Gill, RD et Keiding, N. (1993), Statistical Models based on Counting Processes , Springer Series in Statistics, Springer-Verlag, New York.

Ce livre fournit une définition mathématique de la censure et n'est probablement pas le premier livre sur l'analyse de survie à obtenir. Cependant, il contient également quelques exemples intuitifs, comme ci-dessus.

swmo
la source
Mais, disons, un babouin n'est pas encore descendu lorsque nous arrivons à l'endroit (9 h, certaine valeur). Nous avons donc commencé à observer quand il descendra. Alors, n'avons-nous pas le point de données (heure de descente) au-dessus d'une certaine valeur (9 h)? Mais ce sont toujours des données censurées à gauche. Wikipédia a-t-il donné la définition de manière plus générale?
ABC
1
J'ai supposé que toute la troupe descendrait en même temps, tous ensemble. Mais cela ne fait pas beaucoup de différence. Si nous arrivons après la descente, nous ne connaissons qu'une limite supérieure sur l'heure de descente (à savoir notre heure d'arrivée), donc ce point de données (heure de descente le jour spécifique) est censuré à gauche. Si nous arrivons avant la descente, ce point de données ne sera pas censuré (à moins que nous ne soyons fatigués d'attendre et de partir avant la descente, dans ce cas, nous avons des données censurées à droite, en supposant qu'elles descendent tous les jours).
swmo
Un autre exemple de données censurées à droite est les données d'intervalle de temps où nous ne savons pas que cela commence. Ceci est souvent interprété comme des données censurées à droite (il existe plusieurs exemples sur les forums et les listes de diffusion avec cette idée fausse).
drevicko
4

Supposons que je possède un bar où je joue des groupes. Le bar est assez petit, donc seulement 150 personnes peuvent voir un spectacle à la fois (c'est la clé). Je vends des billets pour les spectacles, donc mes données comptables ressembleraient à ceci:

date     band               price   tickets_sold
10/01/14 Texas Instruments  $20     2
10/02/14 Unkind Donuts      $30     150
...
03/02/15 The Capybaras      $15     120

Un point de données n'est qu'une ligne de ce tableau.

Supposons que la variable que je veux considérer est la demande de billets. La demande pour le premier spectacle n'est pas censurée. Seules deux personnes voulaient voir Texas Instruments à 20 $ et 148 billets n'ont pas été vendus. Je connais exactement la demande à 20 $ : les 2 billets vendus.

Cependant, la variable de la demande est censurée dans la deuxième rangée parce que le spectacle s'est vendu. Je sais qu'au moins 150 personnes voulaient voir Unkind Donuts à 30 $ par billet, mais je ne connais pas exactement le nombre de personnes qui se sont fait refuser sans billet, donc je ne connais pas la demande exactement. Tout ce que je sais, c'est la limite inférieure de 150.

Supposons maintenant que je veuille plutôt mesurer la fréquentation du troisième spectacle. Nous pourrions compter des gens à la porte, mais pour cet exemple, supposons que mon videur est mauvais en arithmétique. Nous savons que certaines personnes achèteront des billets et ne viendront pas. Cela signifie que la fréquentation est au maximum de 120 puisque c'est le nombre de billets vendus. C'est la limite supérieure de la fréquentation des Capybaras, qui est censurée à gauche.

Dimitriy V. Masterov
la source
1

Une idée fausse commune avec la censure à gauche est la classification d'un point de données d'intervalle de temps où vous ne savez pas qu'il commence. Beaucoup pensent que cela est censuré à gauche, mais il est en fait censuré à droite car nous avons une limite inférieure sur la longueur de l'intervalle.

Un exemple concret pourrait être les données cliniques sur la durée de la «foo-pox», généralement une maladie non terminale, et nous nous intéressons au temps qu'il faut aux personnes pour récupérer. Les symptômes de la foo-pox sont faciles à observer (ex: vos dents deviennent vertes). La plupart des personnes dans notre étude savent exactement quand cela a commencé et quand il s'est terminé.

L'exemple classique de données censurées à droite dans ce type d'étude sont des sujets qui avaient encore une foo-pox à la fin de l'étude ou encore une foo-pox quand ils ont disparu ("perdus de vue") pendant l'étude (supposons que nous connaître la date de début de la maladie pour ces personnes). Pour ces personnes, nous avons une limite inférieure sur la durée, donc leurs données sont censurées à droite . Ceci est intuitivement «censuré à droite», car nous ne connaissons pas la fin de la période de droite.

Le problème est lorsque nous ne connaissons pas la date de début de la période (les personnes qui vivent seules et n'ont pas de miroir, donc ne savent pas quand leurs dents sont devenues vertes). Ces gauche ou droite sont-elles censurées? Beaucoup pensent à tort que la fin gauche de la période est inconnue, donc laissée censurée. C'est un résultat malheureux de la terminologie, qui, je suppose, s'est développée en l'absence de ce type de censure. Pour ces personnes, nous avons une limite inférieure sur la période de temps (nous savons qu'ils ont eu la foo-pox au moins depuis que leur voisin a mentionné leurs dents vertes jusqu'à ce qu'ils s'améliorent ou que l'étude se termine et qu'ils soient encore malades), donc leurs données sont droit censuré .

drevicko
la source
2
Je pense que votre réponse est un peu déroutante. Au début, vous parlez de censurer un intervalle de temps, puis de censurer une période de temps (un numéro unique). Dans le dernier paragraphe, vous pourriez tout aussi bien déclarer que les données sont des intervalles entre le début de la foo-pox et la mort. Dans ce cas, vous auriez laissé des intervalles censurés dans votre exemple, car vous ne connaissez pas nécessairement l'heure exacte du début, seulement une limite supérieure. De même, vous pouvez (comme vous le faites) regarder la durée de foo-pox, auquel cas vous pouvez obtenir une limite inférieure sur la durée, donc avoir une censure à droite.
swmo
Comment coderiez-vous cela dans les données, par exemple dans un objet R Surv? L'événement d'un enregistrement censuré à droite à droite serait-il une «rémission» ou une «occurrence d'événement», alors que l'événement d'un enregistrement censuré à droite à droite serait «une censure à droite / aucune occurrence / aucune rémission»? En outre, il semble que les taux de risque doivent être différents entre les deux types d'événements tronqués à droite, car ceux-ci devraient être modélisés en fonction du début de la maladie? Quel type de modèle gérerait cela?
Allen Wang
@AllenWang Peur que je ne sois pas trop familier avec les objets R Surv, mais je m'attends à ce que leur terminologie soit cohérente, donc si vous faites attention à la comprendre et à la suivre, ça devrait aller. Quant aux taux de risque, il n'y a pas de différence, dans les deux cas, vous n'avez qu'une limite inférieure sur la durée de l'événement.
drevicko