J'ai un ensemble de données d'échantillons d'observations, stocké sous forme de dénombrements dans les bacs de plage. par exemple:
min/max count
40/44 1
45/49 2
50/54 3
55/59 4
70/74 1
Maintenant, trouver une estimation de la moyenne à partir de cela est assez simple. Utilisez simplement la moyenne (ou la médiane) de chaque intervalle de plage comme observation et le décompte comme poids et trouvez la moyenne pondérée:
Pour mon cas de test, cela me donne 53,82.
Ma question est maintenant, quelle est la bonne méthode pour trouver l'écart-type (ou la variance)?
Grâce à ma recherche, j'ai trouvé plusieurs réponses, mais je ne sais pas laquelle, le cas échéant, est réellement appropriée pour mon ensemble de données. J'ai pu trouver la formule suivante à la fois sur une autre question ici et sur un document NIST aléatoire .
Ce qui donne un écart type de 8,35 pour mon cas de test. Cependant, l'article de Wikipedia sur les moyennes pondérées donne à la fois la formule:
et
Ce qui donne des écarts-types de 8,66 et 7,83, respectivement, pour mon cas de test.
Mise à jour
Merci à @whuber qui a suggéré de se pencher sur les corrections de Sheppard et vos commentaires utiles à leur sujet. Malheureusement, j'ai du mal à comprendre les ressources que je peux trouver à ce sujet (et je ne trouve pas de bons exemples). Pour récapituler cependant, je comprends que ce qui suit est une estimation biaisée de la variance:
Je comprends également que la plupart des corrections standard du biais concernent des échantillons aléatoires directs d'une distribution normale. Par conséquent, je vois deux problèmes potentiels pour moi:
- Ce sont des échantillons aléatoires groupés (qui, j'en suis presque sûr, sont là où les corrections de Sheppard entrent en jeu.)
- On ne sait pas si les données sont pour une distribution normale (donc je suppose que non, ce qui, j'en suis presque sûr, invalide les corrections de Sheppard.)
Donc, ma question mise à jour est; Quelle est la méthode appropriée pour traiter le biais imposé par la formule "simple" pondérée d'écart type / variance sur une distribution non normale? Plus précisément en ce qui concerne les données regroupées.
Remarque: j'utilise les termes suivants:
- est la variance pondérée
- est le nombre d'observations. (c'est-à-dire le nombre de bacs)
- est le nombre de poids différents de zéro. (c'est-à-dire le nombre de bacs comptés)
- sont les poids (c'est-à-dire les nombres)
- sont les observations. (ie le bin signifie)
- est la moyenne pondérée.
Réponses:
Cette réponse présente deux solutions: les corrections de Sheppard et une estimation du maximum de vraisemblance. Les deux s'accordent étroitement sur une estimation de l'écart type: pour le premier et 7,69 pour le second (une fois ajusté pour être comparable à l'estimateur «sans biais» habituel).7.70 7.69
Corrections de Sheppard
Les «corrections de Sheppard» sont des formules qui ajustent les moments calculés à partir de données regroupées (comme celles-ci) où
les données sont supposées être régies par une distribution supportée sur un intervalle fini[a,b]
cet intervalle est divisé séquentiellement en des cases égales de largeur commune qui est relativement petite (aucune case ne contient une grande proportion de toutes les données)h
la distribution a une fonction de densité continue.
Ils sont dérivés de la formule de somme d'Euler-Maclaurin, qui se rapproche des intégrales en termes de combinaisons linéaires de valeurs de l'intégrande à des points régulièrement espacés, et donc généralement applicables (et pas seulement aux distributions normales).
Bien qu'à proprement parler une distribution normale ne soit pas prise en charge sur un intervalle fini, à une approximation extrêmement proche, elle l'est. Essentiellement, toute sa probabilité est contenue dans sept écarts-types de la moyenne. Par conséquent, les corrections de Sheppard s'appliquent aux données supposées provenir d'une distribution normale.
Les deux premières corrections de Sheppard sont
Utilisez la moyenne des données regroupées pour la moyenne des données (c'est-à-dire qu'aucune correction n'est nécessaire pour la moyenne).
Soustraireh2/12
Faisons les calculs. J'utilise
R
pour les illustrer, en commençant par préciser les comptages et les bacs:La formule appropriée à utiliser pour les comptages provient de la réplication des largeurs de bacs par les montants donnés par les comptages; autrement dit, les données regroupées sont équivalentes à
mu
sigma2
Estimations du maximum de vraisemblance
(voir MLE / probabilité d'intervalle lognormalement distribué ).
R
code suivant fait le travail pour une distribution normale:Vérification des hypothèses
Pour visualiser ces résultats, nous pouvons tracer la densité normale ajustée sur un histogramme:
Vérifions plus formellement l'hypothèse (faite par le MLE) que les données sont régies par une distribution normale. Un test de qualité d’ajustement approximatif peut être obtenuχ2 test: les paramètres estimés indiquent la quantité attendue de données dans chaque bac; leχ2 la statistique compare les dénombrements observés aux dénombrements attendus. Voici un test en
R
:La sortie est
Le logiciel a effectué un test de permutation (ce qui est nécessaire car la statistique du test ne suit pas exactement une distribution khi carré: voir mon analyse sur Comment comprendre les degrés de liberté ). Sa valeur p de0,245 , qui n'est pas petite, montre très peu de signes de sortie de la normalité: nous avons des raisons de faire confiance aux résultats du maximum de vraisemblance.
la source