Dans le livre Modèles et méthodes statistiques pour les données à vie , il est écrit:
Censure: lorsqu'une observation est incomplète en raison d'une cause aléatoire.
Troncature: lorsque la nature incomplète de l'observation est due à un processus de sélection systématique inhérent au plan d'étude.
Qu'entend-on par «processus de sélection systématique inhérent au plan d'étude» dans la définition de la troncature?
Quelle est la différence entre la censure et la troncature?
Réponses:
Les définitions varient et les deux termes sont parfois utilisés de manière interchangeable. Je vais essayer d'expliquer les utilisations les plus courantes en utilisant l'ensemble de données suivant:
Censure : certaines observations seront censurées, ce qui signifie que nous savons seulement qu'elles sont inférieures (ou supérieures) à certaines. Cela peut par exemple se produire si nous mesurons la concentration d'un produit chimique dans un échantillon d'eau. Si la concentration est trop faible, l'équipement de laboratoire ne peut pas détecter la présence du produit chimique. Il peut cependant toujours être présent, donc nous savons seulement que la concentration est inférieure à la limite de détection du laboratoire.
Si la limite de détection est de 1,5, de sorte que les observations qui tombent en dessous de cette limite soient censurées, notre exemple de jeu de données deviendrait: c'est-à-dire que nous ne connaissons pas le les valeurs réelles des deux premières observations, mais seulement qu'elles sont inférieures à 1,5.
Troncature : le processus générant les données est tel qu'il est seulement possible d'observer les résultats au-dessus (ou en dessous) de la limite de troncature. Cela peut par exemple se produire si des mesures sont prises à l'aide d'un détecteur qui n'est activé que si les signaux qu'il détecte sont supérieurs à une certaine limite. Il peut y avoir beaucoup de signaux entrants faibles, mais nous ne pouvons jamais dire en utilisant ce détecteur.
Si la limite de troncature est de 1,5, notre exemple de jeu de données deviendrait et nous ne saurions pas qu'il y avait en fait deux signaux qui n'étaient pas enregistrés.
la source
Tout comme dans une perspective d'un autre domaine (programmation), la censure et la troncature sont deux opérations distinctes.
Lorsque je travaille avec un ensemble de données sensibles, par exemple des numéros de sécurité sociale et des numéros de téléphone, je peux le censurer ou le faire censurer avant que l'accès ne soit accordé:
Cela permet au reste de l'application de fonctionner comme il le ferait normalement, avec des structures de données similaires, mais sans réel contenu informationnel ni diffusion d'informations privées.
La troncature, en revanche, ne fait généralement que couper les valeurs restantes après un certain point. Pour travailler sur une application, je n'ai pas besoin de centaines de milliers d'enregistrements, je n'ai peut-être besoin que de ~ 50 de chacun, ce qui rend l'accès aux données beaucoup plus rapide et les ensembles de données plus petits.
Une variante similaire de troncature consiste à insérer une valeur dans une colonne ou un type de données de longueur ou de précision limitée:
la source