J'espère avoir plus d'informations sur les quatre types de biais de cette communauté.
Les types auxquels je fais référence sont mentionnés dans la page d' aide http://www.inside-r.org/packages/cran/e1071/docs/skewness .
L'ancienne méthode n'était pas mentionnée dans la page d'aide, mais je l'inclus quand même.
require(moments)
require(e1071)
x=rnorm(100)
n=length(x)
hist(x)
###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page
###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)
###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); } #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)
###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...
Voici l'article auquel l'auteur de e1071 fait référence: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes et CA Gill (1998), Comparing measures of sample skewness and kurtosis.
D'après ma lecture de ce document, ils suggèrent que le type # 3 a le moins d'erreur.
Voici des exemples de l'asymétrie du code ci-dessus:
e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532
J'ai également remarqué que l'auteur de e1071 a écrit une fonction de décalage différente des notes de la page d'aide. Remarquez le sqrt:
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page
Des idées pourquoi le sqrt (n) est dans la première équation? Quelle équation gère mieux les débordements / débordements? D'autres idées pourquoi elles sont différentes (mais produisent les mêmes résultats)?
Réponses:
Commençons par celle que vous décrivez comme "une ancienne méthode"; c'est la deuxième asymétrie de Pearson, ou asymétrie médiane ; en fait, l'inclinaison du moment et qui sont globalement du même millésime (l'asymétrie médiane est en fait un peu plus jeune puisque l'inclinaison du moment précède les efforts de Pearson).
Une petite discussion d'une partie de l'histoire peut être trouvée ici ; ce message peut également jeter un peu de lumière sur quelques-unes de vos autres questions.
Si vous effectuez une recherche sur notre site à l'aide de la seconde asymétrie Pearson, vous obtiendrez de nombreux articles contenant une discussion sur le comportement de cette mesure.
Ce n'est pas vraiment plus étrange que le moment où l'asymétrie mesure dans mon esprit; ils font tous les deux parfois des choses étranges qui ne correspondent pas aux attentes des gens à l'égard d'une mesure d'asymétrie.
Ces trois sont simplement des variations légèrement différentes de l'asymétrie du troisième moment. Dans les très grands échantillons, il n'y a vraiment aucune différence que vous utilisez. Dans les échantillons plus petits, ils ont tous des biais et des variances légèrement différents.
Les formes discutées ici n'épuisent pas les définitions de l'asymétrie (j'en ai vu une douzaine, je pense - l'article de Wikipédia en énumère un certain nombre, mais même cela ne couvre pas la gamme), ni même les définitions liées à la troisième -symétrie momentanée, dont j'ai vu plus que les trois que vous élevez ici.
Pourquoi y a-t-il de nombreuses mesures d'asymétrie?
Donc (en traitant toutes ces asymétries du troisième moment comme une seule pour un instant) pourquoi tant d'asymétries différentes? C'est en partie parce que l' asymétrie en tant que notion est en fait assez difficile à cerner. C'est une chose glissante que vous ne pouvez pas vraiment identifier avec un seul numéro. Par conséquent, toutes les définitions sont loin d'être adéquates d'une manière ou d'une autre, mais elles sont néanmoins généralement conformes à notre sens large de ce que nous pensons qu'une mesure d'asymétrie devrait faire. Les gens continuent d'essayer de trouver de meilleures définitions, mais les anciennes mesures, comme les claviers QWERTY, ne vont nulle part.
Pourquoi y a-t-il plusieurs mesures d'asymétrie basées sur le 3e moment?
Quant à savoir pourquoi tant d'asymétries au troisième moment, c'est simplement parce qu'il y a plus d'une façon de transformer une mesure de population en une mesure d'échantillon. Nous avons vu deux itinéraires basés sur des moments et un basé sur des cumulants. Nous pourrions en construire encore plus; nous pourrions par exemple essayer d'obtenir une mesure non biaisée (petit échantillon) sous une certaine hypothèse de distribution, ou une mesure d'erreur quadratique moyenne minimale ou une autre telle quantité.
Vous pourriez trouver certains des messages sur le site concernant l'éclaircissement de l'asymétrie; il y en a qui montrent des exemples de distributions qui ne sont pas symétriques mais qui ont une asymétrie de troisième moment nulle. Il y en a qui montrent l'asymétrie médiane de Pearson et l'asymétrie du troisième moment peut avoir des signes opposés.
Voici des liens vers quelques articles relatifs à l'asymétrie:
La moyenne = médiane implique-t-elle qu'une distribution unimodale est symétrique?
Dans les données asymétriques de gauche, quelle est la relation entre la moyenne et la médiane?
comment déterminer l'asymétrie à partir d'un histogramme avec des valeurs aberrantes?
la source