Comparaison des queues de deux distributions d'échantillons

13

J'ai deux ensembles de données qui sont à peu près centrés sur zéro, mais je soupçonne qu'ils ont des queues différentes. Je connais quelques tests pour comparer la distribution à une distribution normale, mais je voudrais comparer directement les deux distributions.

Existe-t-il un test simple pour comparer le gras de la queue de 2 distributions ?

Merci
fRed

RockScience
la source
La balise "fat-tails" est-elle vraiment significative (pour les questions futures)?
chl
@chl Vous me dites, je ne suis certainement pas aussi expérimenté que vous en statistique. Mais l'OMI c'est un parti pris classique pour sous-estimer l'importance des queues. Avez-vous lu le travail de Mandelbrot? Les queues de graisse sont très importantes dans les statistiques appliquées à la finance et la crise du crédit de 2008 est venue en partie de certains modèles de tarification qui supposaient la normalité et sous-estimaient les queues de graisse d'une certaine distribution de corrélation. Nous pouvons en discuter dans un autre fil :)
RockScience
1
Cette question est potentiellement intéressante mais certaines clarifications seraient les bienvenues. Êtes-vous préoccupé par une queue ou les deux? Comment mesurez-vous la "graisse"? (Êtes-vous prêt à déplacer et à redimensionner les deux distributions pour faire la comparaison, par exemple?) Comment mesurez-vous les écarts de "gras"? Si vous envisagez un test d'hypothèse, alors quelle sera l'hypothèse alternative, précisément?
whuber
@RockScience, j'ai deux distributions et je veux comparer seulement les queues, avez-vous réussi à le faire? Je sais que vous pouvez calculer le kurtosis, mais comment avez-vous vérifié que les deux queues sont différentes?
user2380782

Réponses:

2

En construisant un seuil, en disant lambda, nous pouvons tester l'égalité de deux moyennes ou variances des deux distributions restreintes sur la région de queue (\ lambda, infinity) sur la base de deux ensembles de données d'observations tombant dans cette région de queue. Bien sûr, les deux échantillons t-test ou F-test peuvent être OK mais pas puissants car la variable aléatoire restreinte sur cette région de queue n'est pas normale même les originales.

Lin-An Chen
la source
La théorie des valeurs extrêmes étudie de telles distributions tronquées: asymptotiquement, la distribution des queues appartient généralement à la famille généralisée de Pareto . On pourrait également essayer d'adapter les données à cette famille de distributions et de comparer les paramètres.
Vincent Zoonekynd
@Vincent Une queue peut avoir pratiquement n'importe quelle distribution. La théorie des valeurs extrêmes en dit peu sur les queues: elle se concentre sur la distribution des maxima (ou minima) des échantillons iid, ce qui est assez différent.
whuber
1

Que diriez-vous d'ajuster la distribution lambda généralisée et les intervalles de confiance d'amorçage sur les 3e et 4e paramètres?

Mike Lawrence
la source
2
Pourquoi cette famille de distributions serait-elle particulièrement bonne pour ce problème et pas une autre famille comme les distributions Pearson?
whuber
1

Le test du chi carré (test de qualité de l'ajustement) sera très bon pour comparer les queues de deux distributions car il est structuré pour comparer deux distributions par des ensembles de valeurs (représentés graphiquement par un histogramme). Et, les queues seront composées de la plupart des seaux.

Même si ce test se concentre sur l'ensemble de la distribution, et pas seulement sur la queue, vous pouvez facilement observer la proportion de la valeur ou de la divergence du chi carré dérivée de la différence de gras de la queue.

Veillez à ce que l'histogramme dérivé puisse vous donner visuellement beaucoup plus d'informations concernant le gras respectif des queues que toute signification statistique liée au test. C'est une chose de déclarer que l'adiposité des queues est statistiquement différente. C'est une autre pour l'observer visuellement. Ils disent qu'une image vaut mille mots. Parfois, cela vaut aussi mille nombres (cela a du sens étant donné que les graphiques encapsulent tous les nombres).

Sympa
la source
3
Il me semble que le test du Chi Square sera particulièrement médiocre pour identifier les différences de queues. Si les queues sont couvertes par de nombreux bacs, alors - parce que ce sont des queues! - il peut y avoir peu de données dans l'un des bacs, invalidant l'approximation du chi carré. Si les queues sont couvertes par quelques bacs, alors vous perdez presque tout pouvoir pour discriminer leurs formes, et ce que vous réussissez à discriminer peut ne pas être terriblement pertinent ou utile. (Un problème auquel nous nous heurtons ici est que "l'adiposité de la queue" n'a pas été définie, donc la question est vraiment trop vague pour bien répondre.)
whuber
@whuber, je ne peux pas dire si je suis d'accord avec votre commentaire car je ne comprends pas bien l'un de vos points. Que voulez-vous dire exactement par "invalider l'approximation du chi carré"?
Sympa
Le test du khi carré est basé sur une approximation de la théorie normale de la distribution réelle de la statistique du khi carré. Typiquement, cette approximation devient médiocre lorsque les populations de
bacs
@whuber, merci pour l'explication. À la lumière de cela, j'ai l'impression que la première phrase de votre commentaire initial peut ne pas être aussi nuancée que vous l'auriez souhaité ("le test du Chi Square sera particulièrement médiocre pour identifier la différence de queues"). Peut-être que la déclaration la plus appropriée aurait été "ça dépend ..." Ce test a plusieurs mérites, y compris vous obliger à définir les bacs pertinents. Et, tout aussi important, faciliter la construction d'un histogramme. Accordé si vous avez moins de 5 observations dans un bac, vous perdrez la précision comme vous l'avez bien expliqué.
Sympa
@Gaetan J'apprécie l'attention portée aux nuances, mais dans ce cas, le jugement semble justifié. Comparé aux nombreuses autres méthodes disponibles pour comparer les distributions, le test du Chi Squared ne résiste pas bien. Si vous "définissez des bacs pertinents" sur la base des données elles-mêmes, le test n'est pas valide. De plus, un histogramme n'est généralement pas un moyen utile de regarder les queues des distributions. Cependant, j'hésite à proposer des alternatives car le problème est mal défini: qu'est-ce que cela pourrait signifier pour deux distributions d'avoir le même "gras de queues"? Kurtosis est une possibilité, mais c'est une mesure grossière.
whuber