Les variables sont souvent ajustées (par exemple normalisées) avant de créer un modèle - quand est-ce une bonne idée et quand est-ce une mauvaise?

57

Dans quelles circonstances voudriez-vous ou ne voudriez-vous pas mettre à l'échelle ou normaliser une variable avant l'ajustement du modèle? Et quels sont les avantages / inconvénients de la mise à l'échelle d'une variable?

Andrew
la source
Question très similaire ici: stats.stackexchange.com/q/7112/3748, y a-t-il plus que vous cherchez?
Michael Bishop
Oui - j'aimerais savoir pour les modèles en général plutôt que pour le modèle linéaire
Andrew
1
Il y a beaucoup de modèles possibles et d'utilisations possibles des modèles. Si vous pouvez rendre vos questions plus spécifiques et réduire le chevauchement avec d’autres questions, c’est mieux.
Michael Bishop
En plus du lien ci-dessus, cette question: quand-devriez-vous-centrer-vos-données-quand-devriez-vous-normaliser sera d’intérêt.
gung - Rétablir Monica

Réponses:

37

La normalisation concerne tout le poids des différentes variables du modèle. Si vous effectuez la normalisation "uniquement" dans un souci de stabilité numérique, il se peut que des transformations produisent des propriétés numériques très similaires, mais une signification physique différente qui pourrait être beaucoup plus appropriée pour l'interprétation. Il en va de même pour le centrage, qui fait généralement partie de la normalisation.

Situations dans lesquelles vous souhaitez probablement normaliser:

  • les variables sont des quantités physiques différentes
  • et les valeurs numériques sont sur des échelles de grandeur très différentes
  • et il n'y a pas de connaissance "externe" selon laquelle les variables avec une variation (numérique) élevée devraient être considérées comme plus importantes.

Situations dans lesquelles vous ne souhaitez peut-être pas normaliser:

  • si les variables sont la même quantité physique et sont (à peu près) de la même ampleur, par exemple
    • concentrations relatives de différentes espèces chimiques
    • absorbances à différentes longueurs d'onde
    • intensité d'émission (sinon mêmes conditions de mesure) à différentes longueurs d'onde
  • vous ne voudrez certainement pas normaliser les variables qui ne changent pas entre les échantillons (canaux de base) - vous ne feriez que grossir le bruit de mesure (vous voudrez peut-être les exclure du modèle)
  • si vous avez de telles variables liées physiquement, votre bruit de mesure peut être à peu près le même pour toutes les variables, mais l'intensité du signal varie beaucoup plus. Les variables avec des valeurs faibles ont un bruit relatif plus élevé. Normaliser ferait exploser le bruit. En d'autres termes, vous devrez peut-être décider si vous souhaitez normaliser le bruit relatif ou absolu.
  • Vous pouvez utiliser des valeurs physiquement significatives que vous pouvez utiliser pour associer votre valeur mesurée, par exemple, au lieu de l'intensité transmise, utilisez le pourcentage d'intensité transmise (transmittance T).

Vous pouvez faire quelque chose "entre les deux" et transformer les variables ou choisir l'unité pour que les nouvelles variables aient encore une signification physique, mais la variation de la valeur numérique n'est pas très différente, par exemple

  • si vous travaillez avec des souris, utilisez le poids vif g et la longueur en cm (plage de variation attendue d'environ 5 pour les deux) au lieu des unités de base kg et m (plage de variation attendue de 0,005 kg et 0,05 m - un ordre de grandeur différent).
  • pour la transmittance T ci-dessus, vous pouvez envisager d'utiliser l'absorbanceA=log10T

Similaire pour le centrage:

  • Il peut y avoir (physiquement / chimiquement / biologiquement / ...) des valeurs de base significatives disponibles (contrôles, stores, etc.)
  • La moyenne est-elle réellement significative? (L'homme moyen a un ovaire et un testicule)
cbeleites soutient Monica
la source
+1 et accepté en raison de la liste utile de quand et quand ne pas standardiser, merci
Andrew
6
+1 pour "L'homme moyen a un ovaire et un testicule" (& aussi pour le reste de la réponse ;-).
gung - Rétablir Monica
1
@cbeleites avez-vous une chance de fournir un lien vers une ressource qui explique les canaux de base dans le contexte que vous avez utilisé dans votre réponse? Je n'ai pas entendu le terme auparavant et j'obtiens des résultats de recherche qui ne permettent pas de comprendre votre utilisation du terme ici. Merci!
Mahonya
1
@sarikan: regardez la fig. 1 dans cet article: americanlaboratory.com/913-Technical-Articles/… pour des raisons biologiques et physico-chimiques, entre 2000 et 2700 cm aucun signal n'est attendu. Cette région peut être utilisée pour estimer la base de référence (à partir d’effets physiques non Raman) qui est ensuite soustraite. Ces variables seront alors approximativement égales à zéro, plus du bruit. 1
cbeleites soutient Monica
9

Une chose que je me demande toujours avant de normaliser est: "Comment vais-je interpréter le résultat?" S'il existe un moyen d'analyser des données sans transformation, cela peut être préférable du seul point de vue de l'interprétation.

Jebyrnes
la source
7

En général, je ne recommande pas la mise à l'échelle ou la normalisation à moins que ce ne soit absolument nécessaire. L'avantage ou l'intérêt d'un tel processus est que, lorsqu'une variable explicative a une dimension physique et une ampleur totalement différentes de la variable de réponse, la graduation par division par écart-type peut aider en termes de stabilité numérique et permet de comparer les effets sur plusieurs variables explicatives. Avec la standardisation la plus courante, l’effet de variable est la quantité de changement dans la variable de réponse lorsque la variable explicative augmente d’un écart-type; il indique également que la signification de l'effet de variable (la quantité de changement dans la variable de réponse lorsque la variable explicative augmente d'une unité) serait perdue bien que la valeur statistique de la variable explicative reste inchangée. cependant, Lorsqu'on considère une interaction dans un modèle, la mise à l'échelle peut être très problématique, même pour les tests statistiques, en raison d'une complication impliquant un ajustement stochastique de la mise à l'échelle dans le calcul de l'erreur standard de l'effet d'interaction (Preacher, 2003). Pour cette raison, la mise à l'échelle par écart type (ou normalisation / normalisation) n'est généralement pas recommandée, en particulier lorsque des interactions sont impliquées.

Preacher, KJ, Curran, PJ et Bauer, DJ, 2006. Outils de calcul permettant de sonder les effets d'interaction dans la régression linéaire multiple, la modélisation à plusieurs niveaux et l'analyse de courbes latentes. Journal of Educational and Behavioral Statistics, 31 (4), 437-448.

bluepole
la source
4
Je m'interroge sur votre affirmation selon laquelle la normalisation des prédicteurs n'est "généralement pas recommandée, en particulier lorsque des interactions sont impliquées". Ni Gelman et Hill, ni Raudenbush & Bryk ne mentionnent cette préoccupation dans leurs textes. Mais quand j’aurai une chance, j’examinerai avec intérêt les références que vous mentionnez.
Michael Bishop
Si nous utilisons l'univers d'étalonnage std comme variable de mise à l'échelle, la mise à l'échelle n'est pas stochastique.
Adam
Quelqu'un peut-il confirmer si la mise à l'échelle est nuisible en cas d'interaction? Cela ne semble pas avoir été résolu dans la discussion ci-dessus.
Talik3233