pourquoi cela aide-t-il avec des nombres délimités au-dessus et en dessous?
Une distribution définie sur est ce qui la rend appropriée comme modèle pour les données sur . Je ne pense pas que le texte implique plus que "c'est un modèle pour les données sur " (ou plus généralement, sur ).( 0 , 1 ) ( 0 , 1 ) ( a , b )( 0 , 1 )( 0 , 1 )( 0 , 1 )( a , b )
quelle est cette distribution ...?
Le terme «distribution de log-odds» n'est malheureusement pas tout à fait standard (et ce n'est même pas un terme très courant).
Je vais discuter de quelques possibilités pour ce que cela pourrait signifier. Commençons par examiner un moyen de construire des distributions de valeurs dans l'intervalle unitaire.
Une façon courante de modéliser une variable aléatoire continue, dans est la distribution bêta , et une manière courante de modéliser des proportions discrètes dans est un binôme à l'échelle ( , au moins lorsque est un compte).( 0 , 1 ) [ 0 , 1 ] P = X / n XP( 0 , 1 )[ 0 , 1 ]P= X/ nX
Une alternative à l'utilisation d'une distribution bêta serait de prendre un CDF inverse continu ( ) et de l'utiliser pour transformer les valeurs de en ligne réelle (ou rarement, en demi-ligne réelle) puis utilisez toute distribution pertinente ( ) pour modéliser les valeurs sur la plage transformée. Cela ouvre de nombreuses possibilités, car toute paire de distributions continues sur la ligne réelle ( ) est disponible pour la transformation et le modèle. ( 0 , 1 ) G F , GF- 1( 0 , 1 )gF, G
Ainsi, par exemple, la transformation log-odds (également appelée logit ) serait une de ces transformations inverse-cdf (étant le CDF inverse d'une logistique standard ) , puis il y a beaucoup que nous pourrions considérer les distributions comme modèles pour .YOui= journal( P1 - P)Oui
Nous pourrions alors utiliser (par exemple) un modèle logistique pour , une famille simple à deux paramètres sur la ligne réelle. La reconversion vers via la transformation log-odds inverse (c'est-à-dire ) produit une distribution à deux paramètres pour , une qui peut être unimodal, ou en forme de U, ou en J, symétrique ou asymétrique, à bien des égards un peu comme une distribution bêta (personnellement, j'appellerais cela logit-logistic, car son logit est logistique). Voici quelques exemples de différentes valeurs de :Y ( 0 , 1 ) P = exp ( Y )( μ , τ)Oui( 0 , 1 ) Pμ,τP= exp( Y)1 + exp( Y)Pμ , τ
En regardant la brève mention dans le texte de Witten et al, cela pourrait être ce que la "distribution des cotes" veut dire - mais elles pourraient tout aussi bien signifier autre chose.
Une autre possibilité est que le logit-normal était prévu.
Cependant, le terme semble avoir été utilisé par van Erp & van Gelder (2008) , par exemple, pour se référer à une transformation log-odds sur une distribution bêta (donc en fait en prenant comme logistique et comme la distribution du log d'une variable aléatoire bêta-prime , ou de manière équivalente la distribution de la différence des log de deux variables aléatoires khi-deux). Cependant, ils l'utilisent pour faire des proportions de comptage de modèles , qui sont discrètes. Bien sûr, cela entraîne certains problèmes (causés par la tentative de modéliser une distribution avec une probabilité finie à 0 et 1 avec une sur FG(0,1)[ 1 ]Fg( 0 , 1 )), sur lesquels ils semblent alors consacrer beaucoup d'efforts. (Il semblerait plus facile d'éviter simplement le modèle inapproprié, mais c'est peut-être juste moi.)
OuiP
POui- ∞∞
[ 2 ]
Donc, comme vous le voyez, ce n'est pas un terme avec une seule signification. Sans une indication plus claire de Witten ou de l'un des autres auteurs de ce livre, il nous reste à deviner ce qui est prévu.
[1]: Noel van Erp et Pieter van Gelder, (2008),
"Comment interpréter la distribution bêta en cas de panne",
Actes du 6e Atelier probabiliste international , Darmstadt
pdf link
[2]: Yan Guo, (2009),
The New Methods on NDE Systems Pod Capability Assessment and Robustness,
Mémoire soumis à la Graduate School of Wayne State University, Detroit, Michigan
Je suis ingénieur logiciel (pas statisticien) et j'ai récemment lu un livre intitulé An Introduction to Statistical Learning. Avec applications en R.
Je pense que ce que vous lisez, c'est log-odds ou logit. page 132
http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf
Livre brillant - je l'ai lu de couverture en couverture. J'espère que cela t'aides
la source