Quelles méthodes puis-je utiliser pour déduire une distribution si je ne connais que trois centiles?
Par exemple, je sais que dans un certain ensemble de données, le cinquième centile est 8 135, le 50e centile est 11 259 et le 95e centile est 23 611. Je veux pouvoir passer d'un autre nombre à son centile.
Ce ne sont pas mes données, et ce sont toutes les statistiques que j'ai. Il est clair que la distribution n'est pas normale. La seule autre information dont je dispose est que ces données représentent le financement public par habitant pour les différents districts scolaires.
J'en sais assez sur les statistiques pour savoir que ce problème n'a pas de solution définitive, mais pas assez pour savoir comment trouver de bonnes hypothèses.
Une distribution log-normale serait-elle appropriée? Quels outils puis-je utiliser pour effectuer la régression (ou dois-je le faire moi-même)?
la source
Réponses:
L'utilisation d'une méthode purement statistique pour effectuer ce travail ne fournira absolument aucune information supplémentaire sur la répartition des dépenses scolaires: le résultat reflétera simplement un choix arbitraire d'algorithme.
Vous avez besoin de plus de données .
C'est facile à trouver: utilisez les données des années précédentes, des districts comparables, peu importe. Par exemple, les dépenses fédérales pour 14866 districts scolaires en 2008 sont disponibles sur le site du recensement . Cela montre que dans tout le pays, les revenus fédéraux totaux par habitant (inscrits) ont été distribués approximativement lognormalement, mais leur ventilation par État montre une variation substantielle ( par exemple , les dépenses en billes en Alaska ont un biais négatif tandis que les dépenses en billes au Colorado ont une forte asymétrie positive) . Utilisez ces données pour caractériser la forme de distribution probable, puis ajustez vos quantiles à cette forme.
Si vous êtes même proche de la bonne forme de distribution, vous devriez pouvoir reproduire les quantiles avec précision en ajustant un ou au plus deux paramètres. La meilleure technique pour trouver l'ajustement dépendra de la forme de distribution que vous utilisez, mais - plus important encore - elle dépendra de ce que vous avez l'intention d'utiliser pour les résultats.. Avez-vous besoin d'estimer un montant moyen de dépenses? Limites supérieures et inférieures des dépenses? Quoi qu'il en soit, vous voulez adopter une certaine mesure de l'ajustement qui vous donnera les meilleures chances de prendre de bonnes décisions avec vos résultats. Par exemple, si votre intérêt se concentre sur les 10% supérieurs de toutes les dépenses, vous souhaiterez ajuster le 95e centile avec précision et vous vous soucierez peu de l'ajustement du 5e centile. Aucune technique d'ajustement sophistiquée ne fera ces considérations pour vous.
Bien sûr, personne ne peut légitimement garantir que cette méthode basée sur les données et orientée vers la décision fonctionnera mieux (ou pire) qu'une recette statistique, mais - contrairement à une approche purement statistique - cette méthode a une base fondée sur la réalité, en mettant l'accent sur vos besoins, en lui donnant une certaine crédibilité et une défense contre la critique.
la source
Comme l'a souligné @whuber, les méthodes statistiques ne fonctionnent pas exactement ici. Vous devez déduire la distribution à partir d'autres sources. Lorsque vous connaissez la distribution, vous avez un exercice de résolution d'équations non linéaire. Notons la fonction quantile de la distribution de probabilité choisie avec le vecteur de paramètre θF θ . Ce que vous avez est le système d'équations non linéaire suivant:
où sont vos quantiles. Vous devez résoudre ce système pour trouver θq θ . Maintenant, pour pratiquement n'importe quelle distribution à 3 paramètres, vous trouverez des valeurs de paramètres satisfaisant cette équation. Pour les distributions à 2 paramètres et à 1 paramètre, ce système est surdéterminé, il n'y a donc pas de solutions exactes. Dans ce cas, vous pouvez rechercher un ensemble de paramètres qui minimise l'écart:
Ici, j'ai choisi la fonction quadratique, mais vous pouvez choisir ce que vous voulez. Selon les commentaires @whuber, vous pouvez attribuer des poids, de sorte que des quantiles plus importants puissent être ajustés avec plus de précision.
Pour quatre paramètres et plus, le système est sous-déterminé, il existe donc un nombre infini de solutions.
Voici un exemple de code R illustrant cette approche. À des fins de démonstration, je génère les quantiles à partir de la distribution Singh-Maddala à partir du package VGAM . Cette distribution a 3 paramètres et est utilisée dans la modélisation de la distribution des revenus.
Formez maintenant la fonction qui évalue le système non linéaire d'équations:
Vérifiez si les vraies valeurs satisfont à l'équation:
Pour résoudre le système d'équation non linéaire, j'utilise la fonction
nleqslv
du package nlqeslv .Comme nous le voyons, nous obtenons la solution exacte. Essayons maintenant d'adapter la distribution log-normale à ces quantiles. Pour cela, nous utiliserons la
optim
fonction.Tracer maintenant le résultat
De cela, nous voyons immédiatement que la fonction quadratique n'est pas si bonne.
J'espère que cela t'aides.
la source
ofn <- function(x,q) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2]))^2)
. Je proposeofn <- function(x) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2],x[3]))^2)
carq
n'est pas une entrée pourofn
, etX[3]
est manquant. CordialementEssayez le package rriskDistributions et - si vous êtes sûr de la famille de distribution lognormal - utilisez la commande
ce qui devrait résoudre votre problème. Utilisez-le à la
fit.perc
place si vous ne souhaitez pas vous limiter à un seul fichier PDF connu.la source
Pour une lognormale, le rapport du 95e centile à la médiane est le même que le rapport de la médiane au 5e centile. Ce n'est même pas presque vrai ici, donc lognormal ne serait pas un bon choix.
Vous avez suffisamment d'informations pour adapter une distribution à trois paramètres et vous avez clairement besoin d'une distribution asymétrique. Pour plus de simplicité analytique, je suggérerais la distribution log-logistique décalée comme sa fonction quantile (c'est-à-dire l'inverse de sa fonction de distribution cumulative) puisse être écrite sous une forme fermée raisonnablement simple, vous devriez donc être en mesure d'obtenir des expressions de forme fermée pour ses trois paramètres en termes de vos trois quantiles avec un peu d'algèbre (je vais laisser cela comme un exercice!). Cette distribution est utilisée dans l'analyse de la fréquence des crues.
Cela ne vous donnera cependant aucune indication sur l'incertitude dans les estimations des autres quantiles. Je ne sais pas si vous en avez besoin, mais en tant que statisticien, je pense que je devrais être en mesure de le fournir, donc je ne suis pas vraiment satisfait de cette réponse. Je n'utiliserais certainement pas cette méthode, ou probablement n'importe quelle méthode, pour extrapoler (beaucoup) en dehors de la plage des 5e au 95e centiles.
la source
La seule chose que vous pouvez déduire des données est que la distribution n'est pas symétrique. Vous ne pouvez même pas dire si ces quantiles provenaient d'une distribution ajustée ou simplement de l'ecdf.
S'ils provenaient d'une distribution ajustée, vous pouvez essayer toutes les distributions auxquelles vous pouvez penser et voir s'il y a une correspondance. Sinon, il n'y a pas assez d'informations. Vous pouvez interpoler un polynôme du 2e degré ou une spline du 3e degré pour la fonction quantile et l'utiliser, ou proposer une théorie sur la famille de distribution et faire correspondre les quantiles, mais toute inférence que vous feriez avec ces méthodes serait profondément suspecte.
la source
L'utilisation de quantiles pour estimer les paramètres de distributions a priori est discutée dans la littérature sur la mesure du temps de réponse humain comme «estimation de probabilité maximale quantile» (QMPE, bien qu'originellement appelée à tort «estimation de vraisemblance maximale quantile», QMLE), longuement discutée par Heathcote et collègues . Vous pouvez ajuster un certain nombre de distributions a priori différentes (ex-gaussiennes, lognormales décalées, Wald et Weibull), puis comparer les probabilités de somme des log des meilleurs ajustements résultants pour chaque distribution pour trouver la saveur de distribution qui semble donner le meilleur ajustement.
la source
Vous pouvez utiliser vos informations de centile pour simuler les données d'une certaine manière et utiliser le package R "logspline" pour estimer la distribution de manière non paramétrique. Ci-dessous est ma fonction qui utilise une méthode comme celle-ci.
la source