Les réponses (définitions) définies sur Wikipedia sont sans doute un peu cryptiques pour ceux qui ne connaissent pas les mathématiques / statistiques supérieures.
En termes mathématiques, un modèle statistique est généralement considéré comme une paire ( ), où est l'ensemble des observations possibles, à savoir l'espace de l' échantillon, et est un ensemble de distributions de probabilité sur .
Dans les probabilités et les statistiques, une distribution de probabilités attribue une probabilité à chaque sous-ensemble mesurable des résultats possibles d'une expérience aléatoire, d'une enquête ou d'une procédure d'inférence statistique. On trouve des exemples dont l'espace d'échantillonnage est non numérique, où la distribution serait une distribution catégorielle.
Je suis un lycéen très intéressé par ce domaine comme passe-temps et je suis actuellement aux prises avec les différences entre ce qui est un statistical model
et unprobability distribution
Ma compréhension actuelle et très rudimentaire est la suivante:
les modèles statistiques sont des tentatives mathématiques pour approximer les distributions mesurées
les distributions de probabilité sont des descriptions mesurées d'expériences qui attribuent des probabilités à chaque résultat possible d'un événement aléatoire
la confusion est encore aggravée par la tendance dans la littérature à voir les mots "distribution" et "modèle" utilisés de manière interchangeable - ou du moins dans des situations très similaires (par exemple, distribution binomiale vs modèle binomial)
Quelqu'un peut-il vérifier / corriger mes définitions et peut-être proposer une approche plus formalisée (quoique toujours en termes d'anglais simple) de ces concepts?
la source
Réponses:
La distribution de probabilité est une fonction mathématique qui décrit une variable aléatoire. Un peu plus précisément, c'est une fonction qui attribue des probabilités aux nombres et sa sortie doit être en accord avec les axiomes de probabilité .
Le modèle statistique est une description abstraite et idéalisée de certains phénomènes en termes mathématiques en utilisant des distributions de probabilité. Citant Wasserman (2013):
Dans de nombreux cas, nous utilisons des distributions comme modèles (vous pouvez vérifier cet exemple ). Vous pouvez utiliser la distribution binomiale comme modèle de comptage de têtes dans une série de lancers de pièces. Dans ce cas, nous supposons que cette distribution décrit, de manière simplifiée, les résultats réels. Cela ne signifie pas qu'il s'agit d'une seule façon de décrire un tel phénomène, ni que la distribution binomiale est quelque chose qui ne peut être utilisé qu'à cette fin. Le modèle peut utiliser une ou plusieurs distributions, tandis que les modèles bayésiens spécifient également des distributions antérieures.
Plus formellement, cela est discuté par McCullaugh (2002):
Les modèles statistiques utilisent donc des distributions de probabilité pour décrire les données dans leurs termes. Les modèles paramétriques sont également décrits en termes d'ensemble fini de paramètres.
Cela ne signifie pas que toutes les méthodes statistiques nécessitent des distributions de probabilité. Par exemple, la régression linéaire est souvent décrite en termes d' hypothèse de normalité , mais en fait, elle est assez robuste aux écarts par rapport à la normalité et nous avons besoin d'hypothèses sur la normalité des erreurs pour les intervalles de confiance et les tests d'hypothèse. Donc, pour que la régression fonctionne, nous n'avons pas besoin d'une telle hypothèse, mais pour avoir un modèle statistique entièrement spécifié, nous devons le décrire en termes de variables aléatoires , nous avons donc besoin de distributions de probabilité. J'écris à ce sujet parce que vous pouvez souvent entendre des gens dire qu'ils ont utilisé un modèle de régression pour leurs données - dans la plupart des cas, ils signifient plutôt qu'ils décrivent les données en termes de relation linéaire entre les valeurs cibles et les prédicteurs à l'aide de certains paramètres, plutôt que d'insister sur le conditionnel. normalité.
McCullagh, P. (2002). Qu'est-ce qu'un modèle statistique? Annales des statistiques, 1225-1267.
Wasserman, L. (2013). Toutes les statistiques: un cours concis d'inférence statistique. Springer.
la source
In much of the following, it is important to distinguish between the model as a function and the associated set of distributions
) Faites-vous simplement un commentaire sur l'ambiguïté inhérente entre les deux significations partageant le même termemodel
ou ai-je raté quelque chose?Considérez comme un ensemble de tickets . Vous pouvez écrire des trucs sur un ticket. Habituellement, un ticket commence avec le nom d'une personne ou d'un objet du monde réel qu'il "représente" ou "modèles". Il y a beaucoup d'espace vide sur chaque ticket pour écrire d'autres choses.S
Vous pouvez faire autant de copies de chaque ticket que vous le souhaitez. Un modèle de probabilité pour cette population ou ce processus réel consiste à faire une ou plusieurs copies de chaque ticket, à les mélanger et à les mettre dans une boîte. Si vous - l'analyste - pouvez établir que le processus de tirage au hasard d'un ticket dans cette boîte émule tous les comportements importants de ce que vous étudiez, alors vous pouvez en apprendre beaucoup sur le monde en pensant à cette boîte. Étant donné que certains billets peuvent être plus nombreux dans la boîte que d'autres, ils peuvent avoir des chances différentes d'être tirés. La théorie des probabilités étudie ces chances.P
Lorsque des nombres sont écrits sur les tickets (de manière cohérente), ils donnent lieu à des distributions (probabilités). Une distribution de probabilité décrit simplement la proportion de tickets dans une boîte dont les nombres se situent dans un intervalle donné.
Parce que nous ne savons généralement pas exactement comment le monde se comporte, nous devons imaginer différentes cases dans lesquelles les tickets apparaissent avec des fréquences relatives différentes. L'ensemble de ces boîtes est . Nous considérons le monde comme étant suffisamment décrit par le comportement de l' une des boîtes en P . Votre objectif est de deviner de quelle boîte il s'agit, en fonction de ce que vous voyez sur les billets que vous en avez retirés.P P
Les observations inscrites sur chaque ticket étant des nombres, elles donnent lieu à des distributions de probabilité. Les hypothèses formulées à propos des boîtes sont généralement formulées en termes de propriétés de ces distributions, par exemple, si elles doivent faire la moyenne de zéro, être symétriques, avoir une forme de "courbe en cloche", non corrélées ou autre.
C'est vraiment tout ce qu'il y a à faire. Tout comme la gamme primitive de douze tons a donné naissance à toute la musique classique occidentale, une collection de boîtes contenant des billets est un concept simple qui peut être utilisé de manière extrêmement riche et complexe. Il peut modéliser à peu près n'importe quoi, allant d'un lancer de pièce à une bibliothèque de vidéos, des bases de données d'interactions de sites Web, des ensembles de mécanique quantique et tout ce qui peut être observé et enregistré.
la source
Les modèles statistiques paramétriques typiques décrivent comment le ou les paramètres d'une distribution dépendent de certaines choses telles que les facteurs (une variable qui a des valeurs discrètes) et les covariables (variables continues). Par exemple, si dans une distribution normale vous supposez que la moyenne peut être décrite par un certain nombre fixe (une "interception") et un certain nombre (un "coefficient de régression") multiplié par la valeur d'une covariable, vous obtenez un modèle de régression linéaire avec un terme d'erreur normalement distribué. Pour une distribution binomiale, un modèle couramment utilisé ("régression logistique"π π/ (1-π) intercepter + β1covariable1+ …
la source
Une distribution de probabilité donne toutes les informations sur la façon dont une quantité aléatoire fluctue. En pratique, nous n'avons généralement pas la distribution de probabilité complète de notre quantité d'intérêt. Nous pouvons savoir ou supposer quelque chose à ce sujet sans savoir ou supposer que nous savons tout à ce sujet. Par exemple, nous pourrions supposer qu'une certaine quantité est normalement distribuée mais ne savons rien de la moyenne et de la variance. Ensuite, nous avons une collection de candidats pour la distribution à choisir; dans notre exemple, ce sont toutes les distributions normales possibles. Cette collection de distributions forme un modèle statistique. Nous l'utilisons en collectant des données, puis en restreignant notre classe de candidats afin que tous les candidats restants soient cohérents avec les données dans un sens approprié.
la source
Un modèle est spécifié par un PDF, mais ce n'est pas un PDF.
La distribution de probabilité (PDF) est une fonction qui attribue des probabilités aux nombres et sa sortie doit être en accord avec les axiomes de probabilité, comme l'a expliqué Tim .
Un modèle est entièrement défini par une distribution de probabilité, mais c'est plus que cela. Dans l'exemple du lancer de pièces, notre modèle pourrait être «la pièce est juste» + «chaque lancer est indépendant». Ce modèle est spécifié par un PDF qui est un binôme avec p = 0,5.
Cependant, on pourrait imaginer un modèle où les lancers ne sont pas indépendants, auquel cas il n'est plus décrit par le binôme PDF. Pourtant, le modèle est spécifié par la distribution conjointe (un PDF) de tous les événementsP( x1, x2, x3, . . . ) . Le point étant, formellement, un modèle est toujours spécifié par la distribution conjointe sur les événements.
Une distinction entre le modèle et le PDF est qu'un modèle peut être interprété comme une hypothèse statistique. Par exemple, dans le lancer de pièces, nous pouvons considérer le modèle où la pièce est juste (p = 0,5), et que chaque lancer est indépendant (binôme), et dire que c'est notre hypothèse, que nous voulons tester par rapport à une hypothèse concurrente .
Vous pouvez également avoir des modèles concurrents (par exemple, nous ne savons pasp et nous voulons calculer p est le meilleur ajustement). Il n'est pas logique de parler de PDF concurrents car ils ne sont qu'un objet mathématique.
la source
A model is specified by a PDF
Je ne suis pas d'accord. Un modèle peut également être spécifié par plusieurs PDF. Et un modèle peut être spécifié par aucun PDF: pensez à quelque chose comme un SVM ou un arbre de régression.Vous posez une question très importante, Alan, et avez reçu quelques bonnes réponses ci-dessus. Je voudrais offrir une réponse plus simple et indiquer également une dimension supplémentaire à la distinction que les réponses ci-dessus n'ont pas abordée. Par souci de simplicité, tout ce que je dirai ici concerne les modèles statistiques paramétriques .
Tout d’abord, vous pouvez trouver l’idée d’un famille utile pour relier votre question à des choses que vous avez apprises au lycée. (Je suis surpris que ce mot ne soit pas encore apparu sur cette page!) Vous avez depuis longtemps découvert la famille des courbes quadratiques,y= a x2+ b x + c . Vous pouvez penser à un modèle statistique paramétrique de la même manière, comme une famille de distributions . Vous avez probablement fait des expériences de laboratoire dans des cours de chimie ou de physique, où vous avez collecté des données et les avez tracées afin d'identifier des paramètres à partir d'une simple famille de modèles commey= m x + b ou F= - k x . Au plus haut niveau, l'estimation des paramètres d'un modèle statistique ressemble beaucoup au processus de recherche de la pentem et intercepter b , ou trouver la constante de ressort k . Alors que vous continuez à étudier les mathématiques, vous verrez des «familles» de différentes sortes d'entités surgir partout.
Donc, ma brève réponse n ° 1 à votre question est: un modèle statistique est une famille de distributions.
L'autre point que je voulais faire concerne le qualificatif statistique . Comme le souligne Judea Pearl dans sa "règle d'or de l'analyse causale" [1, p350],
(Aux fins actuelles, je vous invite à lire «statistique» à la place de «basé sur la distribution» et «modèle» à la place de «conception».) Ce que Pearl tient à faire comprendre, c'est que nos modèles d'effets causals monde (pensezF= - k x , par exemple!) incarnent nécessairement plus que des idées purement statistiques . Ainsi, en prenant votre question comme intitulée --- c'est-à-dire sans la statistique de qualification attachée au modèle --- une réponse complète nécessite un avertissement supplémentaire selon lequel les modèles incorporent généralement des idées causales qui se trouvent intrinsèquement en dehors de la province des statistiques, c'est-à - dire des déclarations sur les distributions de probabilité .
Ainsi, ma réponse n ° 2 à votre question est la suivante: les modèles incarnent généralement des idées causales qui ne peuvent pas être exprimées en termes purement distributionnels.
[1]: Pearl, Judée. Causalité: modèles, raisonnement et inférence. 2e édition. Cambridge, Royaume-Uni; New York: Cambridge University Press, 2009. Lien vers le §11.3.5, y compris cité p. 351.
la source
causal
? Y a-t-il une signification plus nuancée ou se réfère-t-elle simplement à la notioncausality
et aux relations liées entrecauses
eteffects
? Merci pour votre réponse, btw.