Comment utiliser les statistiques CDF et PDF pour l'analyse

12

C'est peut-être trop une question générale, mais j'espère que je peux trouver de l'aide ici. Je commence un emploi RA dans mon université et mon sujet sera lié à l'analyse du trafic Internet. Je suis assez nouveau dans le monde de l'analyse, mais je suppose que dans le monde de la recherche, c'est ce que je dois faire beaucoup.

J'ai parcouru quelques articles et dans beaucoup d'entre eux, je trouve qu'ils utilisent la densité de probabilité (PDF), CDF, CCDF, etc. pour expliquer les résultats qu'ils ont obtenus. Par exemple, PDF de la durée de la session utilisateur, CDF d'octets transférés chaque jour, etc.

Donc, s'il y a quelqu'un qui fait de tels graphiques et analyses (dans tout autre sujet en général ou ceci) pourriez-vous me dire simplement dans quelle situation utiliserais-je l'une ou l'autre de ces représentations

sfactor
la source

Réponses:

17

C'est en partie une question de goût et de convention, mais la théorie, l'attention portée à vos objectifs et un petit peu de neurosciences cognitives [voir les références] peuvent vous fournir quelques conseils.

Parce qu'un pdf et un cdf transmettent la même information, la distinction entre eux vient de la façon dont ils le font: un pdf représente une probabilité avec des zones tandis qu'un cdf représente une probabilité avec des distances (verticales) . Des études montrent que les gens comparent les distances plus rapidement et avec plus de précision qu'ils ne comparent les zones et qu'ils évaluent systématiquement les zones de manière erronée. Ainsi, si votre but est de fournir un outil graphique pour lire les probabilités, vous devriez privilégier l'utilisation d'un cdf.

Pdfs et cdfs représentent également la densité de probabilité : le premier le fait au moyen de la hauteur tandis que le second représente la densité par la pente . Maintenant, les tableaux sont inversés, car les gens sont de mauvais estimateurs de la pente (qui est la tangente d'un angle; nous avons tendance à voir l'angle lui-même). Les densités sont bonnes pour transmettre des informations sur les modes, la lourdeur des queues et les lacunes. Privilégiez l'utilisation de pdfs dans de telles situations et partout ailleurs où les détails locaux de la distribution de probabilité doivent être soulignés.

Parfois, un pdf ou un cdf fournit des informations théoriques utiles. Sa valeur (ou plutôt son inverse) est impliquée dans les formules des erreurs standard pour les quantiles, les extrêmes et les statistiques de rang. Affichez un pdf plutôt qu'un cdf dans de telles situations. Lorsque l'on étudie les corrélations multivariées dans un cadre non paramétrique, comme avec des copules , le cdf s'avère plus utile (peut-être parce que c'est la fonction qui transforme une loi de probabilité continue en loi uniforme).

Un pdf ou un cdf peut être intimement associé à un test statistique particulier. Le test de Kolmogorov-Smirnov (et la statistique KS) a une représentation graphique simple en termes de tampon vertical autour du cdf; il n'a pas de représentation graphique simple en termes de pdf (que je sache).

Le ccdf (cdf complémentaire) est utilisé dans des applications spéciales qui se concentrent sur la survie et les événements rares. Son utilisation tend à être établie par convention.

Les références

WS Cleveland (1994). Les éléments de la représentation graphique des données. Sommet, NJ, USA: Hobart Press. ISBN 0-9634884-1-4

BD Dent (1999). Cartographie: conception de cartes thématiques 5e éd. Boston, MA, États-Unis: WCB McGraw-Hill.

AM MacEachren (2004). Fonctionnement des cartes. New York, NY, USA: The Guilford Press. ISBN 1-57230-040-X

whuber
la source
(+1) en particulier pour les informations sur l'interprétabilité des distances par rapport aux surfaces et de la pente par rapport à la hauteur.
steffen
8

Je suis d'accord avec la réponse de whuber, mais j'ai un autre petit point supplémentaire:

Le CDF possède un estimateur non paramétrique simple qui n'a besoin d'aucun choix: la fonction de distribution empirique . Ce n'est pas tout à fait si simple d'estimer un PDF. Si vous utilisez un histogramme, vous devez choisir la largeur du bac et le point de départ du premier bac. Si vous utilisez l' estimation de la densité du noyau, vous devez choisir la forme et la bande passante du noyau. Un lecteur soupçonneux ou cynique peut se demander si vous avez vraiment choisi celles-ci entièrement a priori ou si vous avez essayé quelques valeurs différentes et choisi celles qui ont donné le résultat que vous avez le plus aimé.

Ce n'est cependant qu'un point mineur. Celles qui sont faites sont plus importantes, donc je n'utiliserais probablement cela que pour choisir quand j'étais encore indécis après avoir considéré celles-ci.

un arrêt
la source
C'est toujours un point intéressant. Merci de l'avoir soulevé.
whuber
2

Je suppose que cela dépend des statistiques ou des résultats que vous allez découvrir, rechercher, étudier ou rapporter. Je suppose que vous utiliserez probablement ces graphiques pour représenter les résultats de votre sujet universitaire, non?

Comme par exemple, si vous souhaitez présenter votre conclusion sur, par exemple, `` combien de temps les utilisateurs restent sur un certain site Web '', il peut être bon de l'afficher dans CDF car il montre le temps accumulé qu'il a passé sur ce site Web, à travers les pages, etc. .

D'un autre côté, si vous souhaitez simplement montrer la probabilité que les utilisateurs cliquent sur un lien publicitaire (par exemple, un lien Google AdWords), vous pouvez le présenter sous forme PDF car il s'agira probablement d'une courbe en cloche de distribution normale et vous pouvez afficher la probabilité de cette heppening.

J'espère que cela aide, Jeff


la source