Qu'est-ce que Theta signifie?

16

Je suis un débutant dans les statistiques et j'ai trouvé ça .

En statistique, θ, la lettre grecque minuscule «thêta», est le nom habituel d'un (vecteur de) paramètre (s) d'une certaine distribution de probabilité générale. Un problème courant est de trouver la ou les valeurs de thêta. Notez qu'il n'y a aucune signification à nommer un paramètre de cette façon. Autant l'appeler autrement. En fait, de nombreuses distributions ont des paramètres qui reçoivent généralement d'autres noms. Par exemple, il est courant de nommer la moyenne et l'écart de la distribution normale μ (lire: «mu») et l'écart σ («sigma»), respectivement.

Mais je ne sais toujours pas ce que cela signifie en anglais simple?

Kamilski81
la source
10
θ est juste un symbole mathématique et signifie différentes choses dans différents contextes. Parfois, est utilisé pour faire référence à un paramètre à estimer mais il n'y a pas de vraie réponse à la question "Qu'est-ce que ?". C'est comme demander "Quelle est la lettre A?". Votre lien fait même allusion à cela quand il dit "Remarquez qu'il n'y a aucune signification à nommer un paramètre de cette façon. Nous pourrions aussi bien l'appeler autrement." . θθθ
Macro
C'est juste une façon de nommer un paramètre statistique (qui définit la distribution de la quantité associée à ce «paramètre») avec une lettre spéciale (autre que les lettres anglaises).
Stat-R
4
La plupart d'entre nous considéreraient cette citation comme étant un anglais extrêmement simple, mais pour progresser, nous devons accepter que la question n'est pas de savoir comment lire l'anglais. De quoi pourrait-il donc s'agir? Je soutiens qu'il nous demande d'expliquer les termes techniques dans la citation: ceux avec lesquels nous sommes si familiers que nous ne voyons plus à quel point ils peuvent être étranges pour les statistiquement non initiés. Cela nous oblige à aborder les significations de la distribution et des paramètres (d'une distribution c'est-à-dire pas d'une courbe ajustée ou d'un autre modèle déterministe).
whuber

Réponses:

31

Ce n'est pas une convention, mais assez souvent représente l'ensemble des paramètres d'une distribution.θ

C'était tout pour un anglais simple, montrons plutôt des exemples.

Exemple 1. Vous voulez étudier le lancer d'une punaise à l'ancienne (celles avec un grand fond circulaire). Vous supposez que la probabilité qu'elle tombe point vers le bas est une valeur inconnue que vous appelez . Vous pouvez appeler une variable aléatoire X et dire que X = 1 lorsque la punaise tombe vers le bas et X = 0 quand elle tombe vers le haut. Vous écririez le modèleθXX=1X=0

P(X=1)=θP(X=0)=1θ,

et vous seriez intéressé à estimer (ici, la proabilité que la punaise tombe pointe vers le bas).θ

Exemple 2. Vous souhaitez étudier la désintégration d'un atome radioactif. Sur la base de la littérature, vous savez que la quantité de radioactivité diminue de façon exponentielle, vous décidez donc de modéliser le temps de désintégration avec une distribution exponentielle. Si est le moment de la désintégration, le modèle estt

f(t)=θeθt.

Ici est une densité de probabilité, ce qui signifie que la probabilité que l'atome se désintègre dans l'intervalle de temps ( t , t + d t ) est f ( t ) d t . Encore une fois, vous serez intéressé par l'estimation de θ (ici, le taux de désintégration).f(t)(t,t+dt)f(t)dtθ

Exemple 3. Vous souhaitez étudier la précision d'un instrument de pesée. Sur la base de la littérature, vous savez que les mesures sont gaussiennes, vous décidez donc de modéliser la pesée d'un objet standard de 1 kg comme

f(x)=1σ2πexp{(xμ2σ)2}.

Ici est la mesure donnée par l'échelle, f ( x ) est la densité de probabilité, et les paramètres sont μ et σ , donc θ = ( μ , σ ) . Le paramètre μ est le poids cible (l'échelle est biaisée si μ 1 ), et σ est l'écart type de la mesure à chaque fois que vous pesez l'objet. Encore une fois, vous serez intéressé par l'estimation de θ (ici, le biais et l'imprécision de l'échelle).xf(x)μσθ=(μ,σ)μμ1σθ

gui11aume
la source
1
+1 FWIW, j'ai récemment publié un exemple travaillé dans le même sens sur stats.stackexchange.com/a/34894 . Bien qu'il soit trompeur de l'interpréter comme un «anglais simple» - il n'hésite pas à utiliser des termes techniques - j'ai fait un effort pour expliquer aussi clairement et brièvement que possible ce qui se passe, quelles hypothèses sont formulées et comment travaille avec une famille paramétrée de distributions pour produire une estimation basée sur des données. Pour certains, cela pourrait être un complément informatif à votre réponse ici.
whuber
1
Très bonne réponse! Je suis confus quand vous dites que l'échelle est biaisée si mu! = 1, cependant. En fait, lors de la "normalisation", la distribution normale standard devient x ~ N (0, 1). Ou, en anglais, le mu = 0 et la variance = 1. Voir par exemple, en.wikipedia.org/wiki/…
Mike Williamson
Je veux juste dire que l'instrument a un biais s'il indique autre chose que 1 kg lorsqu'il mesure un objet de 1 kg. Peut-être que le mot «échelle» prête à confusion. Ici, il désigne simplement l'instrument.
gui11aume
3

La référence à dépend du modèle avec lequel vous travaillez. Par exemple, dans la régression des moindres carrés ordinaires, vous modélisez une variable dépendante (généralement appelée Y) comme une combinaison linéaire d'une ou plusieurs variables indépendantes (généralement appelées X), obtenant quelque chose commeθ

Yi=b0+b1x1+b2x2+...+bpxp

où p est le nombre de variables indépendantes. Les paramètres à estimer ici sont les et θ est un nom pour tous les β s . Mais θ est plus général peut s'appliquer à tous les paramètres que nous voulons estimer.βsθβsθ

Peter Flom - Réintégrer Monica
la source
3
Peter, bien que vous n'ayez pas dit cela exactement, je crains que cette réponse ne donne au novice l'impression incorrecte que le symbole fera toujours référence à un vecteur de paramètre et, inversement, que c'est la seule façon de se référer à un paramètre valeur. Comme mon commentaire ci-dessus l'indique, je pense que la réponse n'est rien de plus que " θ est un symbole mathématique", ce qui n'est pas vraiment une question statistique. θθ
Macro
1
@Macro Je pense que, dans ce contexte, il est clair que c'est le sens de que Kamilski voulait. Bien sûr, n'importe quel symbole peut faire référence à n'importe quoi. Mais dans ce paragraphe, Macro signifie vous, et non un cours d'économie ou une partie de SAS ou autre chose. θ
Peter Flom - Réintègre Monica
1
ok bien je ne pense pas que l'analogie soit vraiment appropriée mais je vais la prendre comme une tentative d'hyperbole. En tout cas, je me réfère vraiment à quelque chose de très basique qui est que les novices en mathématiques confondent souvent la notation comme quelque chose de intrinsèquement significatif et comme autre chose que ce qu'elle est - simplement une étiquette. Mon point était que cette réponse (je pense involontairement) ne fait rien pour dissiper cette idée. Comme vous le savez, peut faire référence à d'autres choses qu'un statisticien peut rencontrer. Par exemple, les angles sont souvent désignés par θ . θθ
Macro
4
Cette explication, bien qu'elle soit claire et techniquement correcte, n'implique explicitement aucune distribution quelle qu'elle soit et ne semble donc pas être pertinente pour la citation dans la question.
whuber
1

En anglais simple:

La distribution statistique est une fonction mathématique qui vous indique quelle est la probabilité de différentes valeurs de votre variable aléatoire X qui a la distribution f , c'est-à-dire que f ( x ) génère une probabilité de x . Il existe différentes une telle fonction , mais pour l' envisager maintenant f comme une sorte de fonction « générale ».f Xff(x)xf

Cependant, pour que soit universel , c'est-à-dire qu'il soit possible d'appliquer à différentes données (qui partagent des propriétés similaires), il a besoin de paramètres qui changent de forme pour s'adapter à des données différentes. Un exemple simple d'un tel paramètre est μ dans la distribution normale qui indique où est le centre (moyenne) de cette distribution et il peut donc décrire des variables aléatoires avec des valeurs moyennes différentes. La distribution normale a un autre paramètre σ et d'autres distributions ont également au moins un de ces paramètres. Les paramètres sont souvent appelés θ , où pour une distribution normale, θ est un raccourci pour μ et σfμσθθμσ(c'est-à-dire est un vecteur des deux valeurs).

Pourquoi est-il important? Les distributions statistiques sont utilisées pour approximer les distributions empiriques des données. Supposons que vous ayez un ensemble de données sur l'âge d'un groupe de personnes et qu'elles aient en moyenne 50 ans et que vous souhaitez approximer la distribution de leur âge en utilisant une distribution normale. Si la distribution normale ne permettait pas différentes valeurs de μ (par exemple, avait une valeur fixe de ce paramètre, disons μ = 0 ), alors elle serait inutile pour ces données. Cependant, comme μ n'est pas fixe, la distribution normale pourrait utiliser différentes valeurs de μ , μ = 50 étant l'une d'entre elles. Ceci est un exemple simple, mais il existe des cas plus compliqués où les valeurs deθμμ=0μμμ=50θθ

θ

Tim
la source