Cette question va au cœur de ce qu'est la statistique et comment mener une bonne analyse statistique. Elle soulève de nombreuses questions, certaines de terminologie et d'autres de théorie. Pour les clarifier, commençons par noter le contexte implicite de la question et partons de là pour définir les termes clés «paramètre», «propriété» et «estimateur». On répond aux différentes parties de la question au fur et à mesure de leur discussion. La dernière section de conclusion résume les idées clés.
Espaces d'états
Une utilisation statistique courante de «la distribution», comme dans «la distribution normale avec PDF proportionnel à "est en fait un abus (grave) de l'anglais, car évidemment ce n'est pas une distribution: c'est toute une famille de distributionsparamétréespar les symbolesμetσ. Une notation standard pour c'est le "espace d'état"Ω, unensembleexp( - 12( x - μ ) / σ)2) dXμσΩdes distributions. (Je simplifie un peu ici par souci d'exposé et je continuerai de simplifier au fur et à mesure, tout en restant le plus rigoureux possible.) Son rôle est de délimiter les cibles possibles de nos procédures statistiques: lorsque nous estimons quelque chose, nous sommes choisir un (ou parfois plusieurs) éléments de .Ω
Parfois, les espaces d'états sont explicitement paramétrés, comme dans . Dans cette description, il existe une correspondance biunivoque entre l'ensemble de tuples { ( μ , σ ) } dans le demi-plan supérieur et l'ensemble de distributions que nous utiliserons pour modéliser nos données. Une valeur d'une telle paramétrisation est que nous pouvons maintenant nous référer concrètement aux distributions en Ω au moyen d'une paire ordonnée de nombres réels.Ω = { N( μ , σ2) | μ ∈ R , σ> 0 }{ ( μ , σ) }Ω
Dans d'autres cas, les espaces d'états ne sont pas explicitement paramétrés. Un exemple serait l'ensemble de toutes les distributions continues unimodales. Ci-dessous, nous aborderons la question de savoir si un paramétrage adéquat peut de toute façon être trouvé dans de tels cas.
Paramétrisations
Généralement, une paramétrisation de est une correspondance ( fonction mathématique ) d'un sous-ensemble de R d (avec d fini) à Ω . Autrement dit, il utilise des ensembles ordonnés de d -tuples pour étiqueter les distributions. Mais ce n'est pas n'importe quelle correspondance: elle doit être "bien conduite". Pour comprendre cela, considérons l'ensemble de toutes les distributions continues dont les PDF ont des attentes finies. Cela serait largement considéré comme "non paramétrique" dans le sens où toute tentative "naturelle" de paramétrer cet ensemble impliquerait une séquence dénombrable de nombres réels (en utilisant une expansion dans n'importe quelle base orthogonale). Néanmoins, parce que cet ensemble a une cardinalité ℵΩRréréΩré , qui est la cardinalité des nombres réels, il doit existercertaineun-à-un entre ces distributions et R . Paradoxalement, cela semblerait en faire unespace d'étatparamétréavec unseulparamètre réel!ℵ1R
Le paradoxe est résolu en notant qu'un seul nombre réel ne peut pas jouir d'une "belle" relation avec les distributions: lorsque nous changeons la valeur de ce nombre, la distribution à laquelle il correspond doit dans certains cas changer radicalement. Nous excluons de telles paramétrisations "pathologiques" en exigeant que les distributions correspondant aux valeurs proches de leurs paramètres soient elles-mêmes "proches" les unes des autres. Discuter des définitions appropriées de «proche» nous mènerait trop loin, mais j'espère que cette description suffit à démontrer qu'il y a bien plus à être un paramètre que simplement nommer une distribution particulière.
Propriétés des distributions
Par l'application répétée, nous nous habituons à penser à une «propriété» d'une distribution comme une certaine quantité intelligible qui apparaît fréquemment dans notre travail, comme son attente, sa variance, etc. Le problème avec cela comme une définition possible de la «propriété» est qu'elle est trop vague et pas suffisamment générale. (C'est là que les mathématiques se trouvaient au milieu du XVIIIe siècle, où les «fonctions» étaient considérées comme des processus finis appliqués aux objets.) Au lieu de cela, la seule définition sensée de «propriété» qui fonctionnera toujours est de penser à une propriété comme étant un nombre qui est uniquement attribué à chaque distribution en Ω. Cela inclut la moyenne, la variance, tout moment, toute combinaison algébrique de moments, tout quantile et bien plus encore, y compris des choses qui ne peuvent même pas être calculées. Cependant, il n'inclut pas de choses qui n'auraient aucun sens pour certains des éléments de . Par exemple, si Ω se compose de toutes les distributions de Student t, alors la moyenne n'est pas une propriété valide pour Ω (car t 1 n'a pas de moyenne). Cela nous fait une fois de plus comprendre à quel point nos idées dépendent de ce en quoi consiste réellement Ω .ΩΩΩt1Ω
Les propriétés ne sont pas toujours des paramètres
Une propriété peut être une fonction tellement compliquée qu'elle ne servirait pas de paramètre. Prenons le cas de la «distribution normale». Nous pourrions vouloir savoir si la moyenne de la distribution vraie, lorsqu'elle est arrondie à l'entier le plus proche, est paire. C'est une propriété. Mais cela ne servira pas de paramètre.
Les paramètres ne sont pas nécessairement des propriétés
Lorsque les paramètres et les distributions sont en correspondance biunivoque, alors évidemment tout paramètre, et toute fonction des paramètres d'ailleurs, est une propriété selon notre définition. Mais il n'est pas nécessaire qu'il y ait une correspondance biunivoque entre les paramètres et les distributions: parfois, quelques distributions doivent être décrites par deux valeurs distinctes ou plus des paramètres. Par exemple, un paramètre d'emplacement pour des points sur la sphère utiliserait naturellement la latitude et la longitude. C'est très bien - sauf aux deux pôles, qui correspondent à une latitude donnée et à toute longitude valide. L' emplacement(point sur la sphère) est en effet une propriété mais sa longitude n'est pas nécessairement une propriété. Bien qu'il existe plusieurs esquives (il suffit de déclarer la longitude d'un pôle à zéro, par exemple), ce problème met en évidence la différence conceptuelle importante entre une propriété (qui est uniquement associée à une distribution) et un paramètre (qui est un moyen d'étiquetage la distribution et pourrait ne pas être unique).
Procédures statistiques
La cible d'une estimation est appelée une estimation . Ce n'est qu'une propriété. Le statisticien n'est pas libre de sélectionner l'estimateur: c'est la province de son client. Quand quelqu'un vient à vous avec un échantillon d'une population et vous demande d'estimer le 99e centile de la population, vous seriez probablement négligent de fournir un estimateur de la moyenne à la place! Votre travail, en tant que statisticien, consiste à identifier une bonne procédure pour estimer l'estimateur qui vous a été donné. (Parfois, votre travail consiste à persuader votre client qu'il a choisi le mauvais estimateur pour ses objectifs scientifiques, mais c'est une autre question ...)
Par définition, une procédure est un moyen d'obtenir un nombre à partir des données. Les procédures sont généralement données sous forme de formules à appliquer aux données, telles que «additionnez-les toutes et divisez-les par leur nombre». Littéralement, toute procédure peut être déclarée «estimateur» d'un estimateur donné. Par exemple, je pourrais déclarer que la moyenne de l'échantillon (une formule appliquée aux données) estime la variance de la population (une propriété de la population, en supposant que notre client a restreint l'ensemble des populations possibles pour inclure uniquement celles qui ont réellement des variances).Ω
Estimateurs
Un estimateur n'a pas besoin d'avoir un lien évident avec l'estimateur. Par exemple, voyez-vous un lien entre la moyenne de l'échantillon et une variance de la population? Moi non plus. Mais néanmoins, la moyenne de l'échantillon est en fait un estimateur décent de la variance de la population pour certains Ω (comme l'ensemble de toutes les distributions de Poisson). C'est là que réside une clé pour comprendre les estimateurs: leurs qualités dépendent de l'ensemble d'états possibles . Mais cela n'en est qu'une partie.Ω
Un statisticien compétent voudra savoir dans quelle mesure la procédure qu'il recommande se déroulera réellement. Appelons la procédure " " et laissons l'estimateur θ . Ne sachant pas quelle distribution est réellement la vraie, elle envisagera les performances de la procédure pour chaque distribution possible F ∈ Ω . Étant donné un tel F , et étant donné tout résultat possible s (c'est-à-dire un ensemble de données), elle comparera t ( s ) (ce que sa procédure estime) à θ ( F ) (la valeur de l'estimateur pour F ). tθ F∈ΩFst(s)θ(F)FIl est de la responsabilité de son client de lui dire à quel point ces deux sont proches ou éloignés. (Cela se fait souvent avec une fonction de "perte".) Elle peut alors envisager l' espérance de la distance entre et θ ( F ) . C'est le risque de sa procédure. Parce qu'il dépend de F , le risque est une fonction définie sur Ω .t(s)θ(F)FΩ
Les (bons) statisticiens recommandent des procédures basées sur la comparaison des risques. Par exemple, supposons que pour tout , le risque de la procédure t 1 soit inférieur ou égal au risque de t . Il n'y a alors aucune raison d'utiliser t : il est "inadmissible". Sinon, il est "admissible".F∈Ωt1tt
(Un statisticien "bayésien" comparera toujours les risques en faisant la moyenne sur une distribution "antérieure" d'états possibles (généralement fournie par le client). Un statisticien "fréquentiste" pourrait le faire, si un tel a priori existe à juste titre, mais est également disposé à comparer les risques par d'autres moyens que les Bayésiens évitent.)
Conclusions
Nous avons le droit de dire que tout admissible pour θ est un estimateur de θ . tθθ Nous devons, pour des raisons pratiques (car les procédures admissibles peuvent être difficiles à trouver), plier cela pour dire que tout qui présente un risque acceptable faible (en comparaison avec θ ) parmi les procédures praticables est un estimateur de θ . tθθ «Acceptable» et «praticable» sont bien sûr déterminés par le client: «acceptablement» fait référence à son risque et «praticable» reflète le coût (finalement payé par lui) de la mise en œuvre de la procédure.
Derrière cette définition concise se trouvent toutes les idées qui viennent d'être discutées: pour la comprendre, nous devons avoir à l'esprit un spécifique (qui est un modèle du problème, du processus ou de la population à l'étude), un estimant défini (fourni par le client), un fonction de perte spécifique (qui relie quantitativement t à l'estimateur et est également donnée par le client), l'idée de risque (calculée par le statisticien), une procédure de comparaison des fonctions de risque (la responsabilité du statisticien en consultation avec le client), et une idée des procédures qui peuvent réellement être mises en œuvre (la question de la "faisabilité"), même si aucune d'entre elles n'est explicitement mentionnée dans la définition.Ωt
Comme pour de nombreuses questions sur les définitions, les réponses doivent avoir un œil à la fois sur les principes sous-jacents et sur la façon dont les termes sont utilisés dans la pratique, qui peuvent souvent être au moins un peu vagues ou incohérents, même par des personnes bien informées, et plus encore. surtout, variable d'une communauté à l'autre.
Un principe commun est qu'une statistique est une propriété d'un échantillon, et une constante connue, et qu'un paramètre est la propriété correspondante de la population, et donc une constante inconnue. Le mot "correspondant" doit être compris ici comme assez élastique. Soit dit en passant, précisément cette distinction et précisément cette terminologie ont moins d'un siècle, ayant été introduites par RA Fisher.
Mais
Une configuration d'échantillon et de population ne caractérise pas tous nos propres problèmes. Les séries chronologiques sont une grande classe d'exemples dans lesquels l'idée est plutôt un processus de génération sous-jacent, et quelque chose comme ça est sans doute l'idée plus profonde et plus générale.
Il existe des configurations dans lesquelles les paramètres changent. Encore une fois, l'analyse des séries chronologiques fournit des exemples.
Au point principal ici, nous ne considérons pas en pratique toutes les propriétés d'une population ou d'un processus comme des paramètres. Si une procédure suppose un modèle de distribution normale, le minimum et le maximum ne sont pas des paramètres. (En effet, selon le modèle, le minimum et le maximum sont de toute façon des nombres négatifs et positifs arbitrairement grands, pas que cela devrait nous inquiéter.)
Je dirais que pour une fois Wikipédia pointe dans la bonne direction ici, et la pratique et le principe sont tous deux respectés si nous disons qu'un paramètre est ce que nous estimons .
Cela aide également avec d'autres questions qui ont provoqué la perplexité. Par exemple, si nous calculons une moyenne ajustée de 25%, qu'est-ce que nous estimons? Une réponse raisonnable est la propriété correspondante de la population, qui est en fait définie par la méthode d'estimation. Une terminologie est qu'un estimateur a un estimant, quel qu'il soit. En commençant par une idée platonicienne d'une propriété "là-bas" (par exemple, le mode de distribution) et en pensant comment l'estimer est raisonnable, tout comme trouver de bonnes recettes pour analyser les données et réfléchir à ce qu'elles impliquent lorsqu'elles sont considérées comme une inférence.
Comme souvent en mathématiques appliquées ou en sciences, un paramètre a un double aspect. Nous le considérons souvent comme quelque chose de réel que nous découvrons, mais il est également vrai que c'est quelque chose défini par notre modèle de processus, de sorte qu'il n'a aucune signification en dehors du contexte du modèle.
Deux points bien différents:
De nombreux scientifiques utilisent le mot «paramètre» de la même manière que les statisticiens utilisent la variable. J'ai un personnage scientifique aussi bien qu'un personnage statistique, et je dirais que c'est malheureux. Les variables et les propriétés sont de meilleurs mots.
Il est remarquablement courant dans une utilisation plus large de l'anglais que l'on pense que paramètre signifie des limites ou des limites, qui peuvent provenir d'une certaine confusion d'origine entre "paramètre" et "périmètre".
Une note sur le point de vue estimand
La position classique est que nous identifions un paramètre à l'avance et décidons ensuite comment l'estimer, et cela reste une pratique majoritaire, mais inverser le processus n'est pas absurde et peut être utile pour certains problèmes. J'appelle cela le point de vue estimand. Cela fait partie de la littérature depuis au moins 50 ans. Tukey (1962, p.60) a insisté pour que
"Nous devons accorder encore plus d'attention au fait de commencer avec un estimateur et de découvrir ce qu'est un estimateur raisonnable, à découvrir ce qui est raisonnable de penser l'estimateur comme une estimation."
Un point de vue similaire a été élaboré formellement avec beaucoup de détails et de profondeur par Bickel et Lehmann (1975) et officieusement avec une grande lucidité par Mosteller et Tukey (1977, pp.32-34).
Il existe également une version élémentaire. L'utilisation (par exemple) de la médiane ou de la moyenne géométrique de l'échantillon pour estimer le paramètre de population correspondant a du sens, que la distribution sous-jacente soit symétrique ou non, et la même bonne volonté peut être étendue (par exemple) aux moyennes ajustées de l'échantillon, qui sont considérées comme des estimateurs de leurs homologues de la population. .
Bickel, PJ et EL Lehmann. 1975. Statistiques descriptives pour les modèles non paramétriques. II. Emplacement . Annals of Statistics 3: 1045-1069.
Mosteller, F. et JW Tukey. 1977. Analyse et régression des données. Reading, MA: Addison-Wesley.
Tukey, JW 1962. L'avenir de l'analyse des données . Annals of Mathematical Statistics 33: 1-67.
la source
(Tout cela suppose, bien sûr, que mon modèle de distribution de la population ou de génération de données est correct. Il convient, comme toujours, de garder à l'esprit que "tous les modèles sont faux, mais certains sont utiles" - George Box .)
Pour répondre plus explicitement à vos questions, je dirais:
la source
Il y a eu d'excellentes réponses à cette question, je pensais simplement résumer une référence intéressante qui fournit une discussion assez rigoureuse des estimateurs.
La page des laboratoires virtuels sur les estimateurs définit
Le concept de fonction d'une distribution est une idée très générale. Ainsi, chaque exemple fourni ci-dessus pourrait être considéré comme une fonction d'une certaine distribution.
la source