Existe-t-il une astuce technique pour déterminer le troisième quartile s'il appartient à un intervalle ouvert qui contient plus d'un quart de la population (donc je ne peux pas fermer l'intervalle et utiliser la formule standard)?
Éditer
Au cas où j'aurais mal compris quelque chose, je fournirai un contexte plus ou moins complet. J'ai des données disposées dans un tableau avec deux colonnes et, disons, 6 lignes. A chaque colonne correspond un intervalle (dans la première colonne) et une quantité de population qui "appartient" à cet intervalle. Le dernier intervalle est ouvert et comprend plus de 25% de la population. Tous les intervalles (à l'exception du dernier) ont la même plage.
Exemples de données (transposées pour présentation):
Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2: 51, 65, 68, 82, 78, 182
La première colonne doit être interprétée comme une fourchette de niveaux de revenu. Le second doit être interprété comme le nombre d'employés dont le revenu appartient à l'intervalle.
La formule standard à laquelle je pense est .
Réponses:
Vous devez adapter ces données regroupées à un modèle de distribution, car c'est la seule façon d'extrapoler dans le quartile supérieur.
Un modèle
Par définition, un tel modèle est donné par une fonction cadlag passant de 0 à 1 . La probabilité qu'il attribue à n'importe quel intervalle ( a , b ] est F ( b ) - F ( a ) . Pour faire l'ajustement, vous devez poser une famille de fonctions possibles indexées par un paramètre (vectoriel) θ , { F θ } En supposant que l'échantillon résume un ensemble de personnes choisies au hasard et indépendamment d'une population décrite par un F θ spécifique (mais inconnu)F 0 1 ( a , b ] F( b ) - F( A ) θ { Fθ} Fθ , la probabilité de l'échantillon (ou vraisemblance , ) est le produit des probabilités individuelles. Dans l'exemple, cela équivaudrait àL
parce que personnes ont des probabilités associées F θ ( 8 ) - F θ ( 6 ) , 65 ont des probabilités F θ ( 10 ) - F θ ( 8 ) , etc.51 Fθ( 8 ) - Fθ( 6 ) 65 Fθ( 10 ) - Fθ( 8 )
Adaptation du modèle aux données
L' estimation du maximum de vraisemblance de est une valeur qui maximise L (ou, de manière équivalente, le logarithme de L ).θ L L
Les distributions de revenus sont souvent modélisées par des distributions lognormales (voir, par exemple, http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf ). En écrivant , la famille des distributions lognormales estθ = ( μ , σ)
Pour cette famille (et bien d'autres), il est simple d'optimiser numériquement. Par exemple, dans nous écririons une fonction pour calculer log ( L ( θ ) ) puis l'optimiser, car le maximum de log ( L ) coïncide avec le maximum de L lui-même et (généralement) log ( L ) est plus simple à calculer et numériquement plus stable pour travailler avec:L Journal( L ( θ ) ) Journal( L ) L Journal( L )
R
La solution dans cet exemple est , trouvée dans la valeur .θ = ( μ , σ) = ( 2,620945 , 0,379682 )
fit$par
Vérification des hypothèses du modèle
Nous devons au moins vérifier dans quelle mesure cela se conforme à la lognormalité supposée, nous écrivons donc une fonction pour calculer :F
Elle est appliquée aux données pour obtenir les populations de casiers ajustés ou "prédits":
Nous pouvons dessiner des histogrammes des données et de la prédiction pour les comparer visuellement, montrés dans la première ligne de ces graphiques:
Pour les comparer, nous pouvons calculer une statistique chi carré. Ceci est généralement référé à une distribution chi carré pour évaluer la signification :
Utilisation de l'ajustement pour estimer les quantiles
Ces procédures et ce code peuvent être appliqués en général. La théorie du maximum de vraisemblance peut être davantage exploitée pour calculer un intervalle de confiance autour du troisième quartile, si cela est intéressant.
la source
Trop long pour un commentaire:
La réponse de Whubers est aussi bonne que n'importe quelle autre, mais il suppose une asymétrie à droite dans son modèle log-normal. Cela peut être réaliste pour les revenus d'une population générale, mais pas pour les revenus d'un seul employeur à un grade particulier.
la source