Pourquoi les données asymétriques ne sont-elles pas préférées pour la modélisation?

16

La plupart du temps, lorsque les gens parlent de transformations variables (pour les variables prédictives et de réponse), ils discutent des moyens de traiter l'asymétrie des données (comme la transformation logarithmique, la transformation box et cox, etc.). Ce que je ne peux pas comprendre, c'est pourquoi la suppression de l'asymétrie est considérée comme une meilleure pratique courante? Comment l'asymétrie affecte-t-elle les performances de différents types de modèles comme les modèles arborescents, les modèles linéaires et les modèles non linéaires? Quels types de modèles sont les plus touchés par l'asymétrie et pourquoi?

modeling skewness saurav shekhar
la source

2

Afin de donner une réponse raisonnable, veuillez clarifier ce que vous entendez par: a) données, b) modélisation et c) modèles. La question clé - comme d' habitude - est ce que vous voulez faire avec elle . Mais qu'est - ce qu'il ?

chérubin

J'ai mis à jour ma réponse pour ajouter quelques citations pertinentes et développer les revendications.

Tavrock

11

Lors de la suppression de l'asymétrie, les transformations tentent de faire en sorte que l'ensemble de données suive la distribution gaussienne. La raison en est simplement que si l'ensemble de données peut être transformé pour être statistiquement suffisamment proche d'un ensemble de données gaussien, alors le plus grand ensemble d'outils possible est à leur disposition. Des tests tels que l'ANOVA, le test test et bien d'autres dépendent des données ayant une variance constante ( $t$ $F$ $\sigma^2$ ) ou suivent une distribution gaussienne. ¹

Il existe des modèles plus robustes ¹ (comme l'utilisation du test de Levine au lieu du test de Bartlett), mais la plupart des tests et modèles qui fonctionnent bien avec d'autres distributions nécessitent que vous sachiez quelle distribution vous êtes. travailler avec et ne sont généralement approprié pour une distribution unique ainsi que.

Pour citer le NIST Engineering Statistics Handbook :

Dans la modélisation de régression, nous appliquons souvent des transformations pour atteindre les deux objectifs suivants:

pour satisfaire l'hypothèse d'homogénéité des variances pour les erreurs.

pour linéariser l'ajustement autant que possible.

Il faut faire preuve de prudence et de jugement dans la mesure où ces deux objectifs peuvent entrer en conflit. Nous essayons généralement d’atteindre d’abord des variances homogènes, puis nous abordons la question de la linéarisation de l’ajustement.

et dans un autre endroit

Un modèle impliquant une variable de réponse et une seule variable indépendante a la forme:

${Oui}_{je} = F (X_{je}) + E_{je}$ $Y_i=f\left(X_i\right)+E_i$
où est la variable de réponse, est la variable indépendante, est la fonction d'ajustement linéaire ou non linéaire et est la composante aléatoire. Pour un bon modèle, le composant d'erreur doit se comporter comme: $Y$ $X$ $f$ $E$

dessins aléatoires (c.-à-d. indépendants);

d'une distribution fixe;

avec emplacement fixe; et

avec variation fixe.

De plus, pour les modèles d'ajustement, on suppose généralement en outre que la distribution fixe est normale et que l'emplacement fixe est nul. Pour un bon modèle, la variation fixe doit être aussi faible que possible. Une composante nécessaire des modèles d'ajustement consiste à vérifier ces hypothèses pour la composante d'erreur et à évaluer si la variation pour la composante d'erreur est suffisamment faible. L'histogramme, le tracé de décalage et le tracé de probabilité normale sont utilisés pour vérifier la distribution fixe, l'emplacement et les hypothèses de variation sur la composante d'erreur. Le tracé de la variable de réponse et des valeurs prévues par rapport à la variable indépendante est utilisé pour évaluer si la variation est suffisamment petite. Les graphiques des résidus par rapport à la variable indépendante et les valeurs prévues sont utilisés pour évaluer l'hypothèse d'indépendance.

L'évaluation de la validité et de la qualité de l'ajustement en fonction des hypothèses ci-dessus est une partie absolument vitale du processus d'ajustement du modèle. Aucun ajustement ne doit être considéré comme complet sans une étape de validation du modèle adéquate.

(abrégé) citations pour les revendications:
- Breyfogle III, Forrest W. Implémentation de Six Sigma
- Pyzdek, Thomas. Le manuel Six Sigma
- Montgomery, Douglas C. Introduction au contrôle statistique de la qualité
- Ed. Cubberly, Willaim H et Bakerjan, Ramon. Manuel des ingénieurs d'outils et de fabrication: Desktop Edition

Tavrock
la source

Merci pour votre réponse Tavrock. Mais pour autant que je sache, l'ANOVA ou le test t du test F ne sont pas utilisés dans les arbres de décision (au moins pour effectuer des scissions). De plus, dans la régression linéaire, la plupart des hypothèses concernant la forme de la distribution sont liées aux erreurs. Si les erreurs sont biaisées, ces tests échouent. Cela signifie donc que l'asymétrie de la variable prédictive ne devrait pas affecter la qualité de la prédiction pour ces modèles. S'il vous plait corrigez moi si je me trompe. Merci encore!!

saurav shekhar

1

Pouvez-vous clarifier votre question - voulez-vous savoir comment transformer la variable de réponse, ou transformer les variables prédictives, ou les deux?

Groovy_Worm

1

@Groovy_Worm merci d'avoir signalé cela. Dans cette question, je m'inquiète à la fois des variables prédictives et des variables de réponse.

saurav shekhar

Vous recherchez peut-être une modélisation linéaire généralisée (GLM) . En régression linéaire, vous supposez généralement que votre variable dépendante suit une distribution gaussienne conditionnelle aux variables aléatoires X et e . Avec GLM, vous pouvez étendre votre univers pour permettre (presque) tout type de distribution pour votre variable dépendante, vos variables indépendantes (via une fonction de lien que vous spécifiez).

Chris K

7

Cela est principalement vrai pour les modèles paramétriques. Comme l'a dit Tavrock, avoir une variable de réponse qui n'est pas asymétrique améliore l'approximation gaussienne de l'estimation des paramètres, car la distribution symétrique converge beaucoup plus rapidement que les asymétriques vers la gaussienne. Cela signifie que, si vous avez des données asymétriques, leur transformation rendra un ensemble de données plus petit au moins pour utiliser des intervalles de confiance et des tests de paramètres appropriés (les intervalles de prédiction ne seront toujours pas valides, car même si vos données sont maintenant symétriques, vous ne pourriez pas dire c'est normal, seules les estimations des paramètres convergeront en gaussien).

Tout ce discours porte sur la distribution conditionnée de la variable de réponse, vous pourriez dire: sur les erreurs. Néanmoins, si vous avez une variable qui semble asymétrique lorsque vous regardez sa distribution inconditionnée, cela pourrait probablement signifier qu'elle a une distribution conditionnée asymétrique. adapter un modèle à vos données vous éclairera.

Dans les arbres de décision, je soulignerai d'abord une chose: il est inutile de transformer des variables explicatives asymétriques, les fonctions monotones ne changeront rien; cela peut être utile sur les modèles linéaires, mais pas sur les arbres de décision. Cela dit, les modèles CART utilisent l'analyse de la variance pour effectuer des spits, et la variance est très sensible aux valeurs aberrantes et asymétriques, c'est la raison pour laquelle la transformation de votre variable de réponse peut améliorer considérablement la précision de votre modèle.

carlo
la source

1

Je crois que c'est vraiment un artefact de la tradition de revenir aux Gaussiens en raison de leurs belles propriétés.

Mais il existe de belles alternatives de distribution, par exemple le gamma généralisé qui englobe une multitude de formes et de formes de distribution asymétriques différentes

saillant
la source

1

Comme d'autres lecteurs l'ont dit, des informations supplémentaires sur ce que vous prévoyez d'accomplir avec vos données seraient utiles.

Cela étant dit, il existe deux doctrines importantes dans le domaine des statistiques connues sous le nom de théorème de la limite centrale et de la loi des grands nombres . C'est-à-dire que plus on a d'observations, plus on s'attend à ce qu'un ensemble de données se rapproche d'une distribution normale , avec une moyenne, une médiane et un mode égaux. En vertu de la loi des grands nombres, il est prévu que l'écart entre la valeur attendue et la valeur réelle finira par tomber à zéro si les observations sont suffisantes.

Par conséquent, une distribution normale permet au chercheur de faire des prévisions plus précises sur une population si la distribution sous-jacente est connue.

L'asymétrie, c'est quand une distribution s'écarte de cela, c'est-à-dire qu'une déviation peut être faussée positivement ou négativement. Cependant, le théorème de la limite centrale soutient qu'étant donné un ensemble d'observations suffisamment grand, le résultat sera une distribution approximativement normale. Donc, si la distribution n'est pas normale, il est toujours recommandé de collecter davantage de données avant d'essayer de changer la structure sous-jacente de la distribution via les procédures de transformation que vous avez mentionnées.

Michael Grogan
la source

1

Quand l'asymétrie est-elle une mauvaise chose à avoir? Les distributions symétriques (généralement mais pas toujours: par exemple, pas pour la distribution de Cauchy) ont une médiane, un mode et une moyenne très proches les uns des autres. Considérez donc, si nous voulons mesurer l'emplacement d'une population, il est utile d'avoir la médiane, le mode et la moyenne proches les uns des autres.

Par exemple, si nous prenons le logarithme de la distribution des revenus , nous réduisons suffisamment l'asymétrie pour pouvoir obtenir des modèles utiles de localisation des revenus. Cependant, nous aurons toujours une queue droite plus lourde que ce que nous voulons vraiment. Pour réduire cela davantage, nous pourrions utiliser une distribution de Pareto . La distribution de Pareto est similaire à une transformation log-log des données. Désormais, les distributions de Pareto et log-normale ont des difficultés dans la partie inférieure de l'échelle des revenus. Par exemple, les deux souffrent de $\ln 0=-\infty$ . Le traitement de ce problème est couvert par des transformées de puissance .

Exemple de 25 revenus en kilo dollars dérobés au www.

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

L'asymétrie de la première colonne est de 0,99 et celle de la seconde de -0,05. La première colonne n'est probablement pas normale (Shapiro-Wilk p = 0,04) et la seconde n'est pas significativement non normale (p = 0,57).

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

Donc, la question est, si vous êtes une personne au hasard ayant l'un des gains énumérés, que gagnez-vous probablement? Est-il raisonnable de conclure que vous gagneriez 90 000 $ ou plus que la médiane de 84 000 $? Ou est-il plus probable de conclure que même la médiane est biaisée comme mesure de la localisation et que $\exp[\text{mean}\ln(k\$)]\text{ }$ de 76,7 k, ce qui est inférieur à la médiane, est également plus raisonnable comme estimation?

Évidemment, le log-normal ici est un meilleur modèle et le logarithme moyen nous donne une meilleure mesure de l'emplacement. Que cela soit bien connu, sinon entièrement compris, est illustré par la phrase «Je prévois recevoir un salaire à 5 chiffres».

Carl
la source

0

La plupart des résultats sont basés sur des hypothèses gaussiennes. Si vous avez une distribution asymétrique, vous n'avez pas de distribution gaussienne, alors vous devriez peut-être essayer désespérément de la transformer en cela.

MAIS bien sûr, vous pouvez essayer avec GLM.

Bruit rouge
la source

0

Je pense que ce n'est pas seulement de la modélisation, mais notre cerveau n'est pas habitué à travailler avec des données très biaisées. Par exemple, il est bien connu en finance comportementale que nous ne sommes pas bons pour estimer les probabilités très faibles ou élevées.

Aksakal
la source

Pourquoi les données asymétriques ne sont-elles pas préférées pour la modélisation?

Réponses: