L'idée de rendre les données ont une moyenne nulle

12

Je vois souvent des gens qui font d'une dimension / caractéristique d'un ensemble de données une moyenne nulle en supprimant la moyenne de tous les éléments. Mais je n'ai jamais compris pourquoi le faire? Quel effet cela fait-il en tant qu'étape de prétraitement? Améliore-t-il les performances de classification? Cela aide-t-il à répondre à quelque chose sur l'ensemble de données? Cela aide-t-il lors d'une visualisation à comprendre les données?

Jack Twain
la source
9
Cette approche est appelée centrage . L'une de ses applications est de transformer l'ordonnée à l'origine du modèle de régression en «y prévu lorsque x est en moyenne», ce qui rend l'interception un peu plus interprétable.
Penguin_Knight
Une entité / un ensemble de données centré peut également être considéré comme bien conditionné . Voir ici pour une explication visuelle. L'opération de normalisation de l'entrée facilite la descente du gradient.
réglé le

Réponses:

12

Quelques cas où "centrer les données sur leur moyenne" (ci-après juste "dé-signifier") est utile:

1) Détection visuelle pour savoir si une distribution est "la même" qu'une autre distribution, seulement, elle a été déplacée sur la ligne réelle. Rendre les deux distributions ayant une moyenne nulle, rend cette inspection visuelle beaucoup plus facile. Parfois, si la valeur moyenne diffère considérablement, il n'est pas pratique de les visualiser sur le même graphique. Pensez à deux VR normaux, disons un et un . Les formes des graphiques de densité sont identiques, seule leur position sur la ligne réelle diffère. Imaginez maintenant que vous avez les graphiques de leurs fonctions de densité, mais vous ne connaissez pas leur variance. Leur redéfinition superposera un graphique à l'autre.N(dix,4)N(100,4)

2) Simplifiez les calculs des moments supérieurs: bien que l'ajout d'une constante à une variable aléatoire ne change pas sa variance, ni sa covariance avec une autre variable aléatoire, cependant, si vous avez une moyenne non nulle et que vous devez écrire les calculs détaillés, vous devez écrire tous les termes et montrer qu’ils s’annulent. Si les variables sont dé-signifiées, vous économisez beaucoup de calculs inutiles.

3) Les variables aléatoires centrées sur leur moyenne font l'objet du théorème de la limite centrale

4) Les écarts par rapport à la "valeur moyenne" sont, dans de nombreux cas, la question d'intérêt, et s'ils ont tendance à être "supérieurs ou inférieurs à la moyenne", plutôt que les valeurs réelles des variables aléatoires. La «traduction» (visuellement et / ou calcul) des écarts inférieurs à la moyenne en valeurs négatives et des écarts supérieurs à la moyenne en valeurs positives, rend le message plus clair et plus fort.

Pour des discussions plus approfondies, voir aussi

Lorsque vous effectuez une régression multiple, quand devez-vous centrer vos variables prédictives et quand devez-vous les normaliser?

Centrage des données en régression multiple

Si vous recherchez des "données centrées" sur CV, vous trouverez également d'autres articles intéressants.

Alecos Papadopoulos
la source
@OP: Je pense que cette réponse devrait être acceptée.
rottweiler
4

De plus, pour des raisons pratiques, il est avantageux de centrer les données, par exemple lors de l'entraînement de réseaux de neurones.

L'idée est que pour former un réseau neuronal, il faut résoudre un problème d'optimisation non convexe en utilisant une approche basée sur un gradient. Les gradients sont calculés par rétropropagation. Maintenant, ces gradients dépendent des entrées et le centrage des données supprime les biais possibles dans les gradients.

Concrètement, une moyenne non nulle se reflète dans une grande valeur propre, ce qui signifie que les gradients ont tendance à être plus grands dans une direction que les autres (biais), ralentissant ainsi le processus de convergence, conduisant finalement à des solutions pires.

jpmuc
la source
1

Pour ajouter à ce qu'Alecos a dit, ce qui est très bien, le centrage de vos données à zéro est extrêmement important lors de l'utilisation des statistiques bayésiennes ou de la régularisation, car sinon les données peuvent être corrélées avec l'interception, ce qui fait que la régularisation ne fait pas ce que vous voulez habituellement.

Rendre la moyenne des données nulle peut diminuer de nombreux termes hors diagonale de la matrice de covariance, ce qui rend les données plus facilement interprétables et les coefficients plus directement significatifs, car chaque coefficient s'applique plus principalement à ce facteur et agit moins par corrélation avec autres facteurs.

Joe
la source