Je fais un projet qui consiste à remplacer les valeurs manquantes dans un ensemble de données (pour la première fois). Cela implique d'utiliser deux méthodes replacement by mean
et replacement by median
de remplir les valeurs manquantes. Il n'y a pas beaucoup de différence entre les résultats du minimum, de la médiane, du maximum, de la moyenne et de l'écart-type des données en utilisant les deux méthodes et je me demandais quelle méthode est meilleure et comment puis-je décider laquelle est meilleure en utilisant le résultats produits?
mean
median
data-imputation
Jake MB
la source
la source
Réponses:
Cela dépend toujours de vos données et de votre tâche.
S'il existe un ensemble de données présentant de grandes valeurs aberrantes, je préférerai la médiane. Ex: 99% du revenu du ménage est inférieur à 100 et 1% est supérieur à 500.
D'un autre côté, si nous travaillons avec l'usure des vêtements que les clients donnent aux nettoyeurs à sec (en supposant que les opérateurs des nettoyeurs à sec remplissent ce champ de manière intuitive), je comblerai les manquants avec une valeur moyenne d'usure.
Il est préférable de commencer par la compréhension des données, puis cet article sera un point de départ utile.
la source
L'imputation est un moyen d'atteindre un objectif, pas le but en soi. Dans certaines circonstances, remplacer les données manquantes peut être une mauvaise chose à faire. Assurez-vous que vous faites d'abord attention à la raison pour laquelle vos données manquent, comme expliqué par exemple dans la page Wikipédia sur les données manquantes , et que l'imputation est en fait appropriée pour répondre à la question à laquelle votre projet cherche à répondre.
Si certaines hypothèses sont remplies (par exemple, si la probabilité qu'une variable ait une valeur manquante ne dépend pas de la valeur elle-même, appelée techniquement "manquant au hasard") et que votre étude implique plusieurs variables, vous feriez mieux d'utiliser l' imputation multiple plutôt que des remplacements par des moyens ou des médianes. Dans l'imputation multiple, les valeurs connues de toutes les variables sont utilisées pour fournir plusieurs ensembles d'estimations des données manquantes. Cette approche peut fournir de meilleures estimations à la fois des relations sous-jacentes entre les variables et de la fiabilité de vos estimations. Voir les questions sur ce site contenant le
multiple-imputation
tag pour plus d'informations.la source