Qu'est-ce qu'une distribution log-odds?

11

Je lis un manuel sur l'apprentissage automatique (Data Mining par Witten, et al., 2011) et suis tombé sur ce passage:

... De plus, différentes distributions peuvent être utilisées. Bien que la distribution normale soit généralement un bon choix pour les attributs numériques, elle ne convient pas aux attributs qui ont un minimum prédéterminé mais pas de limite supérieure; dans ce cas, une distribution "log-normale" est plus appropriée. Les attributs numériques qui sont délimités au-dessus et au-dessous peuvent être modélisés par une distribution "log-odds" .

Je n'ai jamais entendu parler de cette distribution. J'ai recherché sur Google la «distribution des cotes», mais je n'ai trouvé aucune correspondance exacte pertinente. Est-ce que quelqu'un peut m'aider? Quelle est cette distribution, et pourquoi aide-t-elle avec des nombres bornés au-dessus et au-dessous?

PS Je suis ingénieur logiciel, pas statisticien.

stackoverflowuser2010
la source

Réponses:

14

pourquoi cela aide-t-il avec des nombres délimités au-dessus et en dessous?

Une distribution définie sur est ce qui la rend appropriée comme modèle pour les données sur . Je ne pense pas que le texte implique plus que "c'est un modèle pour les données sur " (ou plus généralement, sur ).( 0 , 1 ) ( 0 , 1 ) ( a , b )(0,1)(0,1)(0,1)(a,b)

quelle est cette distribution ...?

Le terme «distribution de log-odds» n'est malheureusement pas tout à fait standard (et ce n'est même pas un terme très courant).

Je vais discuter de quelques possibilités pour ce que cela pourrait signifier. Commençons par examiner un moyen de construire des distributions de valeurs dans l'intervalle unitaire.

Une façon courante de modéliser une variable aléatoire continue, dans est la distribution bêta , et une manière courante de modéliser des proportions discrètes dans est un binôme à l'échelle ( , au moins lorsque est un compte).( 0 , 1 ) [ 0 , 1 ] P = X / n XP(0,1)[0,1]P=X/nX

Une alternative à l'utilisation d'une distribution bêta serait de prendre un CDF inverse continu ( ) et de l'utiliser pour transformer les valeurs de en ligne réelle (ou rarement, en demi-ligne réelle) puis utilisez toute distribution pertinente ( ) pour modéliser les valeurs sur la plage transformée. Cela ouvre de nombreuses possibilités, car toute paire de distributions continues sur la ligne réelle ( ) est disponible pour la transformation et le modèle. ( 0 , 1 ) G F , GF1(0,1)GF,G

Ainsi, par exemple, la transformation log-odds (également appelée logit ) serait une de ces transformations inverse-cdf (étant le CDF inverse d'une logistique standard ) , puis il y a beaucoup que nous pourrions considérer les distributions comme modèles pour .YY=log(P1P)Y

Nous pourrions alors utiliser (par exemple) un modèle logistique pour , une famille simple à deux paramètres sur la ligne réelle. La reconversion vers via la transformation log-odds inverse (c'est-à-dire ) produit une distribution à deux paramètres pour , une qui peut être unimodal, ou en forme de U, ou en J, symétrique ou asymétrique, à bien des égards un peu comme une distribution bêta (personnellement, j'appellerais cela logit-logistic, car son logit est logistique). Voici quelques exemples de différentes valeurs de :Y ( 0 , 1 ) P = exp ( Y )(μ,τ)Y(0,1) Pμ,τP=exp(Y)1+exp(Y)Pμ,τ

entrez la description de l'image ici

En regardant la brève mention dans le texte de Witten et al, cela pourrait être ce que la "distribution des cotes" veut dire - mais elles pourraient tout aussi bien signifier autre chose.

Une autre possibilité est que le logit-normal était prévu.

Cependant, le terme semble avoir été utilisé par van Erp & van Gelder (2008) , par exemple, pour se référer à une transformation log-odds sur une distribution bêta (donc en fait en prenant comme logistique et comme la distribution du log d'une variable aléatoire bêta-prime , ou de manière équivalente la distribution de la différence des log de deux variables aléatoires khi-deux). Cependant, ils l'utilisent pour faire des proportions de comptage de modèles , qui sont discrètes. Bien sûr, cela entraîne certains problèmes (causés par la tentative de modéliser une distribution avec une probabilité finie à 0 et 1 avec une sur FG(0,1)[1]Fg(0,1)), sur lesquels ils semblent alors consacrer beaucoup d'efforts. (Il semblerait plus facile d'éviter simplement le modèle inapproprié, mais c'est peut-être juste moi.)

OuiP

POui-

[2]

Donc, comme vous le voyez, ce n'est pas un terme avec une seule signification. Sans une indication plus claire de Witten ou de l'un des autres auteurs de ce livre, il nous reste à deviner ce qui est prévu.

[1]: Noel van Erp et Pieter van Gelder, (2008),
"Comment interpréter la distribution bêta en cas de panne",
Actes du 6e Atelier probabiliste international , Darmstadt
pdf link

[2]: Yan Guo, (2009),
The New Methods on NDE Systems Pod Capability Assessment and Robustness,
Mémoire soumis à la Graduate School of Wayne State University, Detroit, Michigan

Glen_b -Reinstate Monica
la source
1
(+1) Une recherche dans l'ensemble du livre indique qu'aucune clarification n'est à venir. Le contexte suggère que la "distribution log-odds" se réfère à un modèle particulier, tout comme la "lognormale" est proposée dans la phrase précédente comme une distribution universelle pour toutes les valeurs non négatives (!).
whuber
1
@whuber Je suis d'accord avec votre caractérisation de ce qui se trouve dans le livre - je n'avais pas l'intention que mes commentaires concernant l'utilisation du terme dans d'autres contextes pour faire référence à la distribution d'échantillons impliquent que c'était l'intention du livre, mais seulement comme une indication qu'il s'agit d'un terme ayant plusieurs significations. Sur les passages en question, mon conseil aux personnes apprenant ce matériel (comme sur beaucoup de choses) serait de lire plus d'un livre.
Glen_b -Reinstate Monica
2

Je suis ingénieur logiciel (pas statisticien) et j'ai récemment lu un livre intitulé An Introduction to Statistical Learning. Avec applications en R.

Je pense que ce que vous lisez, c'est log-odds ou logit. page 132

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf

Livre brillant - je l'ai lu de couverture en couverture. J'espère que cela t'aides

JasonEdinburgh
la source
Merci pour le pointeur. En supposant que la distribution log-odds est la même que la "distribution logistique", j'ai recherché cette dernière sur Wikipédia. Il semble que son PDF n'a pas de limite inférieure ou supérieure. Je me demande donc toujours pourquoi le manuel que j'ai cité à l'origine disait que "les attributs numériques qui sont délimités au-dessus et en dessous peuvent être modélisés" avec cette distribution.
stackoverflowuser2010
Je pense que cela parle peut-être de la sortie de la fonction où les limites sont de 0,0 (impossible) à 1,0 (défini). (Je peux me tromper complètement ici)
JasonEdinburgh
Il est possible que votre modèle produise des résultats positifs ou négatifs arbitrairement importants. Celles-ci pourraient ne pas être interprétables en termes de plage bornée telle qu'une probabilité, mais pourraient être interprétées comme des cotes logarithmiques en utilisant la fonction logit et son inverse la fonction logistique.
Henry