La plupart du temps, lorsque les gens parlent de transformations variables (pour les variables prédictives et de réponse), ils discutent des moyens de traiter l'asymétrie des données (comme la transformation logarithmique, la transformation box et cox, etc.). Ce que je ne peux pas comprendre, c'est pourquoi la suppression de l'asymétrie est considérée comme une meilleure pratique courante? Comment l'asymétrie affecte-t-elle les performances de différents types de modèles comme les modèles arborescents, les modèles linéaires et les modèles non linéaires? Quels types de modèles sont les plus touchés par l'asymétrie et pourquoi?
16
Réponses:
Lors de la suppression de l'asymétrie, les transformations tentent de faire en sorte que l'ensemble de données suive la distribution gaussienne. La raison en est simplement que si l'ensemble de données peut être transformé pour être statistiquement suffisamment proche d'un ensemble de données gaussien, alors le plus grand ensemble d'outils possible est à leur disposition. Des tests tels que l'ANOVA, le test test F et bien d'autres dépendent des données ayant une variance constante ( σ 2t F σ2 ) ou suivent une distribution gaussienne. 1
Il existe des modèles plus robustes 1 (comme l'utilisation du test de Levine au lieu du test de Bartlett), mais la plupart des tests et modèles qui fonctionnent bien avec d'autres distributions nécessitent que vous sachiez quelle distribution vous êtes. travailler avec et ne sont généralement approprié pour une distribution unique ainsi que.
Pour citer le NIST Engineering Statistics Handbook :
et dans un autre endroit
la source
Cela est principalement vrai pour les modèles paramétriques. Comme l'a dit Tavrock, avoir une variable de réponse qui n'est pas asymétrique améliore l'approximation gaussienne de l'estimation des paramètres, car la distribution symétrique converge beaucoup plus rapidement que les asymétriques vers la gaussienne. Cela signifie que, si vous avez des données asymétriques, leur transformation rendra un ensemble de données plus petit au moins pour utiliser des intervalles de confiance et des tests de paramètres appropriés (les intervalles de prédiction ne seront toujours pas valides, car même si vos données sont maintenant symétriques, vous ne pourriez pas dire c'est normal, seules les estimations des paramètres convergeront en gaussien).
Tout ce discours porte sur la distribution conditionnée de la variable de réponse, vous pourriez dire: sur les erreurs. Néanmoins, si vous avez une variable qui semble asymétrique lorsque vous regardez sa distribution inconditionnée, cela pourrait probablement signifier qu'elle a une distribution conditionnée asymétrique. adapter un modèle à vos données vous éclairera.
Dans les arbres de décision, je soulignerai d'abord une chose: il est inutile de transformer des variables explicatives asymétriques, les fonctions monotones ne changeront rien; cela peut être utile sur les modèles linéaires, mais pas sur les arbres de décision. Cela dit, les modèles CART utilisent l'analyse de la variance pour effectuer des spits, et la variance est très sensible aux valeurs aberrantes et asymétriques, c'est la raison pour laquelle la transformation de votre variable de réponse peut améliorer considérablement la précision de votre modèle.
la source
Je crois que c'est vraiment un artefact de la tradition de revenir aux Gaussiens en raison de leurs belles propriétés.
Mais il existe de belles alternatives de distribution, par exemple le gamma généralisé qui englobe une multitude de formes et de formes de distribution asymétriques différentes
la source
Comme d'autres lecteurs l'ont dit, des informations supplémentaires sur ce que vous prévoyez d'accomplir avec vos données seraient utiles.
Cela étant dit, il existe deux doctrines importantes dans le domaine des statistiques connues sous le nom de théorème de la limite centrale et de la loi des grands nombres . C'est-à-dire que plus on a d'observations, plus on s'attend à ce qu'un ensemble de données se rapproche d'une distribution normale , avec une moyenne, une médiane et un mode égaux. En vertu de la loi des grands nombres, il est prévu que l'écart entre la valeur attendue et la valeur réelle finira par tomber à zéro si les observations sont suffisantes.
Par conséquent, une distribution normale permet au chercheur de faire des prévisions plus précises sur une population si la distribution sous-jacente est connue.
L'asymétrie, c'est quand une distribution s'écarte de cela, c'est-à-dire qu'une déviation peut être faussée positivement ou négativement. Cependant, le théorème de la limite centrale soutient qu'étant donné un ensemble d'observations suffisamment grand, le résultat sera une distribution approximativement normale. Donc, si la distribution n'est pas normale, il est toujours recommandé de collecter davantage de données avant d'essayer de changer la structure sous-jacente de la distribution via les procédures de transformation que vous avez mentionnées.
la source
Quand l'asymétrie est-elle une mauvaise chose à avoir? Les distributions symétriques (généralement mais pas toujours: par exemple, pas pour la distribution de Cauchy) ont une médiane, un mode et une moyenne très proches les uns des autres. Considérez donc, si nous voulons mesurer l'emplacement d'une population, il est utile d'avoir la médiane, le mode et la moyenne proches les uns des autres.
Par exemple, si nous prenons le logarithme de la distribution des revenus , nous réduisons suffisamment l'asymétrie pour pouvoir obtenir des modèles utiles de localisation des revenus. Cependant, nous aurons toujours une queue droite plus lourde que ce que nous voulons vraiment. Pour réduire cela davantage, nous pourrions utiliser une distribution de Pareto . La distribution de Pareto est similaire à une transformation log-log des données. Désormais, les distributions de Pareto et log-normale ont des difficultés dans la partie inférieure de l'échelle des revenus. Par exemple, les deux souffrent deln0 = - ∞ . Le traitement de ce problème est couvert par des transformées de puissance .
Exemple de 25 revenus en kilo dollars dérobés au www.
L'asymétrie de la première colonne est de 0,99 et celle de la seconde de -0,05. La première colonne n'est probablement pas normale (Shapiro-Wilk p = 0,04) et la seconde n'est pas significativement non normale (p = 0,57).
Donc, la question est, si vous êtes une personne au hasard ayant l'un des gains énumérés, que gagnez-vous probablement? Est-il raisonnable de conclure que vous gagneriez 90 000 $ ou plus que la médiane de 84 000 $? Ou est-il plus probable de conclure que même la médiane est biaisée comme mesure de la localisation et queexp[ signifie ln( k $ ) ] de 76,7 k, ce qui est inférieur à la médiane, est également plus raisonnable comme estimation?
Évidemment, le log-normal ici est un meilleur modèle et le logarithme moyen nous donne une meilleure mesure de l'emplacement. Que cela soit bien connu, sinon entièrement compris, est illustré par la phrase «Je prévois recevoir un salaire à 5 chiffres».
la source
La plupart des résultats sont basés sur des hypothèses gaussiennes. Si vous avez une distribution asymétrique, vous n'avez pas de distribution gaussienne, alors vous devriez peut-être essayer désespérément de la transformer en cela.
MAIS bien sûr, vous pouvez essayer avec GLM.
la source
Je pense que ce n'est pas seulement de la modélisation, mais notre cerveau n'est pas habitué à travailler avec des données très biaisées. Par exemple, il est bien connu en finance comportementale que nous ne sommes pas bons pour estimer les probabilités très faibles ou élevées.
la source