Dans Andy Field's Discovering Statistics Using SPSS, il déclare que toutes les variables doivent être transformées.
Cependant, dans la publication: "Examen des relations variant dans l'espace entre l'utilisation des terres et la qualité de l'eau à l'aide de la régression pondérée géographiquement I: conception et évaluation du modèle", ils indiquent spécifiquement que seules les variables non normales ont été transformées.
Cette analyse est-elle spécifique? Par exemple, dans une comparaison des moyennes, la comparaison des journaux aux données brutes donnerait évidemment une différence significative, alors que lorsque l'on utilise quelque chose comme la régression pour étudier la relation entre les variables, cela devient moins important.
Modifier: Voici la page de texte intégral dans la section "Transformation des données":
Et voici le lien vers le document: http://www.sciencedirect.com/science/article/pii/S0048969708009121
la source
Réponses:
Vous citez plusieurs conseils, qui sont sans aucun doute tous utiles, mais il est difficile d'en trouver beaucoup de mérite.
Dans chaque cas, je m'appuie totalement sur ce que vous citez comme résumé. Pour la défense des auteurs, j'aimerais croire qu'ils ajoutent les qualifications appropriées au matériel environnant ou autre. (Des références bibliographiques complètes en nom (s) habituel (s), date, titre, (éditeur, lieu) ou (titre de la revue, volume, pages) amélioreraient la question.)
Champ
Ces conseils sont utiles, mais au mieux largement simplifiés. Les conseils de Field semblent être généralement destinés; par exemple, la référence au test de Levene implique une concentration temporaire sur l'analyse de la variance.
Plus généralement, il est courant - dans de nombreux domaines, la situation habituelle - que certains prédicteurs soient transformés et les autres laissés tels quels.
Il est vrai que rencontrer dans un article ou une dissertation un mélange de transformations appliquées différemment à différents prédicteurs (y compris comme cas spécial, transformation d'identité ou laisser tel quel) est souvent un sujet de préoccupation pour un lecteur. Le mélange est-il un ensemble de choix bien pensé, ou était-il arbitraire et capricieux?
De plus, dans une série d'études, la cohérence de l'approche (toujours appliquer des logarithmes à une réponse, ou ne jamais le faire) aide énormément à comparer les résultats, et une approche différente la rend plus difficile.
Mais cela ne veut pas dire qu'il ne pourrait jamais y avoir de raisons pour un mélange de transformations.
Je ne vois pas que la majeure partie de la section que vous citez a beaucoup d'incidence sur les conseils clés que vous mettez en surbrillance en jaune. C'est en soi un sujet de préoccupation: c'est une drôle de chose d'annoncer une règle absolue et de ne pas vraiment l'expliquer. Inversement, l'injonction "Remember" suggère que les motifs de Field ont été fournis plus tôt dans le livre.
Papier anonyme
Le contexte ici est celui des modèles de régression. Comme souvent, parler d'OLS met étrangement l'accent sur la méthode d'estimation plutôt que sur le modèle, mais nous pouvons comprendre ce qui est prévu. GWR I interprète comme une régression pondérée géographiquement.
L'argument ici est que vous devez transformer les prédicteurs non normaux et laisser les autres tels quels. Encore une fois, cela soulève une question sur ce que vous pouvez et devez faire avec les variables indicatrices, qui ne peuvent pas être distribuées normalement (ce qui, comme ci-dessus, peut être répondu en soulignant que la non-normalité dans ce cas n'est pas un problème). Mais l'injonction a le revers de la médaille en impliquant que c'est la non-normalité des prédicteurs qui est le problème. Pas si; cela ne fait pas partie de la modélisation de régression de supposer quoi que ce soit sur les distributions marginales des prédicteurs.
Il y a tellement de bons conseils sur les transformations dans ce forum que je me suis concentré sur ce que vous citez.
PS Vous ajoutez une déclaration commençant par "Par exemple, dans une comparaison des moyennes, la comparaison des journaux aux données brutes entraînerait évidemment une différence significative." Je ne sais pas exactement ce que vous avez en tête, mais comparer des valeurs pour un groupe avec des logarithmes de valeurs pour un autre groupe serait tout simplement absurde. Je ne comprends pas du tout le reste de votre déclaration.
la source
Tout d'abord, les deux citations sont trompeuses dans la mesure où aucune transformation appliquée aux données destinées à être utilisées dans un modèle de régression n'est pas faite pour rendre les PDF variables plus distribués normalement, elle est faite pour rendre les résidus du modèle plus symétriques, car une hypothèse dans la régression classique est que les erreurs sont gaussiennes. Cela implique un niveau de rigueur et de rigueur plus profond que la simple symétrisation d'un PDF.
De plus, les deux citations sont faibles en ce que personne ne se penche sur les motivations de leurs ordonnances (au moins sur la base des informations fournies). En l'occurrence, je ne suis pas d'accord avec les deux.
Dans le passage que vous avez souligné, le livre SPSS prétend que les mélanges de transformations (par exemple, logarithme naturel pour une variable, racine carrée pour une autre) ne sont pas autorisés. Pourquoi est-ce illégal? Les mélanges de transformations ne violent aucune hypothèse de régression à ma connaissance. Veuillez vérifier tous les textes de régression sur les hypothèses de régression pour confirmer que c'est le cas. Les mélanges de transformation peuvent présenter un problème de description substantiel en termes d'interprétation, mais il ne s'agit pas de savoir si les mélanges sont illégaux ou non. Le type SPSS a tort.
En ce qui concerne le deuxième texte, encore une fois, les transformations sont totalement une question de choix de l'analyste - que l'on les fasse du tout, transforme toutes les entrées ou certaines variables et pas d'autres. Rien de tout cela ne viole aucune hypothèse.
Là où je pense que la deuxième citation déraille, c'est dans l'affirmation que, "... pour éviter la multicollinéarité potentielle ... un seul indicateur d'utilisation du sol (a été utilisé) ..." Ce sont des conseils manifestement mauvais et genre de chose que certains analystes feront comme une technique de réduction de dimension où ils factoriseront l'analyse d'un tas de variables et choisiront la variable de charge la plus élevée sur chaque facteur. Cette heuristique existe depuis des années et n'est pas celle que j'utilise ou recommande. Encore une fois, c'est une question de préférence et de formation des analystes. Mais ce point ne vise pas à répondre à vos questions spécifiques.
À la fin de la journée, les deux citations se présentent comme des affirmations des opinions des auteurs en l'absence de toute preuve à l'appui, sur la base des informations fournies.
la source