Wikipedia donne les définitions suivantes:
Censure à droite : un point de données est au-dessus d'une certaine valeur mais il est inconnu de combien.
Censure gauche : un point de données est en dessous d'une certaine valeur mais il n'est pas connu de combien.
Dans ces définitions, que signifie:
- "point de données"
- "certaine valeur", et
- "combien"
En général, qu'est-ce que la censure droite et gauche?
La déclaration ci-dessous est-elle vraie:
"Dans la censure de droite, nous n'avons que la limite inférieure pour la valeur censurée."
Quelle serait la déclaration analogue pour la censure de gauche?
Réponses:
Comme l'étiquette de survie est utilisée, j'ajouterai une réponse offrant quelques exemples avec une saveur d'analyse de survie.
Point de données
Par point de données, nous entendons simplement une observation, c'est-à-dire le résultat d'une ou plusieurs variables. Par exemple, nous pourrions avoir les éléments suivants dans un ensemble de données: la personne 1 dans notre étude est un homme et décède à 58 ans. Nous pourrions considérer cela comme un point de données. Mais dans votre exemple, il est clair que le point de données se compose uniquement du résultat d'une variable, par exemple 58.
Censure à droite
Si nous modélisons le temps de l'échec, il y a une raison évidente de censure, à savoir que nous n'avons pas nécessairement le temps d'attendre que tous les sujets échouent. Disons que nous testons l'effet des vaccins pour enfants. Si nous devions mener un essai randomisé, le dernier de nos sujets mourrait dans cent ans ou plus à partir de maintenant. Cela introduit naturellement la censure, dans ce cas la censure à droite, car nous aurions à un moment donné à dire "nous ne savons pas combien de temps cette personne vivra, nous savons seulement qu'elle est toujours en vie". Une censure à droite peut également se produire si les personnes participant à l'essai randomisé sont perdues de vue, par exemple, elles peuvent vouloir interrompre leur participation à l'étude ou s'éloigner. Ce sont des exemples de censure à droite, fondamentalement, nous ' Nous nous intéressons à la longévité de nos sujets, mais en raison de circonstances pratiques, nous n'avons que des observations censurées, ce qui signifie que pour certains sujets, nous ne saurons jamais quand ils meurent, mais qu'à un certain moment (le temps de la censure), ils étaient encore en vie. Ainsi, nous savons que pour un individu censuré, le point de données (moment du décès) est supérieur à une certaine valeur (le temps de censure).
Censure à gauche
Comme exemple de censure à gauche, considérez ce qui suit. Disons qu'une troupe de babouins dort toujours dans les arbres. Nous voulons estimer à quelle heure du matin ils descendent des arbres, et supposons qu'ils descendent tous les jours. Nous les suivons pendant plusieurs jours, cependant, nous aimons dormir, ce qui signifie que certains jours, ils descendent avant même d'arriver sur les lieux. Si nous arrivons à 9 h le jour et que les babouins sont déjà descendus, nous avons laissé des données censurées. Nous voulons savoir quand ils sont descendus, mais tout ce que nous avons est une limite supérieure (9 h), car nous savons qu'à notre heure d'arrivée, ils étaient déjà descendus. De façon analogue, nous savons maintenant que le point de données (heure de descente au jour ) est inférieur à une certaine valeur (9 h).x x
Cet exemple est tiré de
Andersen, PK, Borgan, Ø., Gill, RD et Keiding, N. (1993), Statistical Models based on Counting Processes , Springer Series in Statistics, Springer-Verlag, New York.
Ce livre fournit une définition mathématique de la censure et n'est probablement pas le premier livre sur l'analyse de survie à obtenir. Cependant, il contient également quelques exemples intuitifs, comme ci-dessus.
la source
Supposons que je possède un bar où je joue des groupes. Le bar est assez petit, donc seulement 150 personnes peuvent voir un spectacle à la fois (c'est la clé). Je vends des billets pour les spectacles, donc mes données comptables ressembleraient à ceci:
Un point de données n'est qu'une ligne de ce tableau.
Supposons que la variable que je veux considérer est la demande de billets. La demande pour le premier spectacle n'est pas censurée. Seules deux personnes voulaient voir Texas Instruments à 20 $ et 148 billets n'ont pas été vendus. Je connais exactement la demande à 20 $ : les 2 billets vendus.
Cependant, la variable de la demande est censurée dans la deuxième rangée parce que le spectacle s'est vendu. Je sais qu'au moins 150 personnes voulaient voir Unkind Donuts à 30 $ par billet, mais je ne connais pas exactement le nombre de personnes qui se sont fait refuser sans billet, donc je ne connais pas la demande exactement. Tout ce que je sais, c'est la limite inférieure de 150.
Supposons maintenant que je veuille plutôt mesurer la fréquentation du troisième spectacle. Nous pourrions compter des gens à la porte, mais pour cet exemple, supposons que mon videur est mauvais en arithmétique. Nous savons que certaines personnes achèteront des billets et ne viendront pas. Cela signifie que la fréquentation est au maximum de 120 puisque c'est le nombre de billets vendus. C'est la limite supérieure de la fréquentation des Capybaras, qui est censurée à gauche.
la source
Une idée fausse commune avec la censure à gauche est la classification d'un point de données d'intervalle de temps où vous ne savez pas qu'il commence. Beaucoup pensent que cela est censuré à gauche, mais il est en fait censuré à droite car nous avons une limite inférieure sur la longueur de l'intervalle.
Un exemple concret pourrait être les données cliniques sur la durée de la «foo-pox», généralement une maladie non terminale, et nous nous intéressons au temps qu'il faut aux personnes pour récupérer. Les symptômes de la foo-pox sont faciles à observer (ex: vos dents deviennent vertes). La plupart des personnes dans notre étude savent exactement quand cela a commencé et quand il s'est terminé.
L'exemple classique de données censurées à droite dans ce type d'étude sont des sujets qui avaient encore une foo-pox à la fin de l'étude ou encore une foo-pox quand ils ont disparu ("perdus de vue") pendant l'étude (supposons que nous connaître la date de début de la maladie pour ces personnes). Pour ces personnes, nous avons une limite inférieure sur la durée, donc leurs données sont censurées à droite . Ceci est intuitivement «censuré à droite», car nous ne connaissons pas la fin de la période de droite.
Le problème est lorsque nous ne connaissons pas la date de début de la période (les personnes qui vivent seules et n'ont pas de miroir, donc ne savent pas quand leurs dents sont devenues vertes). Ces gauche ou droite sont-elles censurées? Beaucoup pensent à tort que la fin gauche de la période est inconnue, donc laissée censurée. C'est un résultat malheureux de la terminologie, qui, je suppose, s'est développée en l'absence de ce type de censure. Pour ces personnes, nous avons une limite inférieure sur la période de temps (nous savons qu'ils ont eu la foo-pox au moins depuis que leur voisin a mentionné leurs dents vertes jusqu'à ce qu'ils s'améliorent ou que l'étude se termine et qu'ils soient encore malades), donc leurs données sont droit censuré .
la source