Quel est le meilleur, le remplacement par la moyenne et le remplacement par la médiane?

9

Je fais un projet qui consiste à remplacer les valeurs manquantes dans un ensemble de données (pour la première fois). Cela implique d'utiliser deux méthodes replacement by meanet replacement by mediande remplir les valeurs manquantes. Il n'y a pas beaucoup de différence entre les résultats du minimum, de la médiane, du maximum, de la moyenne et de l'écart-type des données en utilisant les deux méthodes et je me demandais quelle méthode est meilleure et comment puis-je décider laquelle est meilleure en utilisant le résultats produits?

Jake MB
la source
2
Si vous remplacez les manquements par des moyens, naturellement, la moyenne est préservée. Idem médianes. Les extrêmes ne changeront pas non plus. Les SD seront généralement légèrement réduits, mais ils le seraient considérablement si vous le faites beaucoup. Ce sont des conséquences prévisibles de ce que vous faites et non des indications ipso facto que la méthode est bonne.
Nick Cox
Les analystes qui connectent des valeurs manquantes (MV) à des "solutions" automatiques comme celle-ci ne réfléchissent pas aux conséquences. C'est juste une approche facile à mettre en œuvre. Cette "solution" introduit autant de problèmes qu'elle en résout puisqu'un pdf par ailleurs typiquement lisse se retrouve avec un pic important à la valeur branchée, en fonction du nombre de MV, bien sûr. Les imputations basées sur un modèle sont manifestement supérieures et moins biaisées que toute approche automatisée. @NickCox ne peut pas l'ignorer, malgré ce que sa suggestion implique.
Mike Hunter
1
: @DJohnson ... pas ipso facto des indications que la méthode est bonne. Pas assez clair?
Nick Cox
Les valeurs catégorielles sont généralement imputées avec le mode car il représente la valeur la plus courante pour la colonne donnée.
Sandeep Kar

Réponses:

9

Cela dépend toujours de vos données et de votre tâche.

S'il existe un ensemble de données présentant de grandes valeurs aberrantes, je préférerai la médiane. Ex: 99% du revenu du ménage est inférieur à 100 et 1% est supérieur à 500.

D'un autre côté, si nous travaillons avec l'usure des vêtements que les clients donnent aux nettoyeurs à sec (en supposant que les opérateurs des nettoyeurs à sec remplissent ce champ de manière intuitive), je comblerai les manquants avec une valeur moyenne d'usure.

Il est préférable de commencer par la compréhension des données, puis cet article sera un point de départ utile.

Aleksandro M Granda
la source
Les données que j'utilise peuvent aller de 0 à 1 et j'ai créé des histogrammes avec des limites de 0,1,0,2,0,3 ... à 1. Parce que j'ai beaucoup de limites et de contours différents, diriez-vous que la moyenne est la meilleure?
Jake MB
@ JakeM-B, c'est difficile de donner de bons conseils, quand je n'ai pas accès direct aux données et à leur historique. Souvent, une valeur manquante dans les données signifie que la valeur doit être nulle (ou autre chose par défaut). À votre place (s'il n'y a pas de grande différence entre la moyenne et la médiane), j'essaierais les deux et vérifierais comment cela influence le résultat.
Aleksandro M Granda
6

L'imputation est un moyen d'atteindre un objectif, pas le but en soi. Dans certaines circonstances, remplacer les données manquantes peut être une mauvaise chose à faire. Assurez-vous que vous faites d'abord attention à la raison pour laquelle vos données manquent, comme expliqué par exemple dans la page Wikipédia sur les données manquantes , et que l'imputation est en fait appropriée pour répondre à la question à laquelle votre projet cherche à répondre.

Si certaines hypothèses sont remplies (par exemple, si la probabilité qu'une variable ait une valeur manquante ne dépend pas de la valeur elle-même, appelée techniquement "manquant au hasard") et que votre étude implique plusieurs variables, vous feriez mieux d'utiliser l' imputation multiple plutôt que des remplacements par des moyens ou des médianes. Dans l'imputation multiple, les valeurs connues de toutes les variables sont utilisées pour fournir plusieurs ensembles d'estimations des données manquantes. Cette approche peut fournir de meilleures estimations à la fois des relations sous-jacentes entre les variables et de la fiabilité de vos estimations. Voir les questions sur ce site contenant le multiple-imputationtag pour plus d'informations.

EdM
la source