Du cours de probabilité élémentaire, les distributions de probabilité telles que gaussienne, Poisson ou exponentielle ont toutes une bonne motivation. Après avoir regardé la formule des distributions exponentielles de la famille pendant longtemps, je n'ai toujours aucune intuition.
Quelqu'un peut-il m'aider à comprendre pourquoi nous en avons besoin en premier lieu? Quels sont les avantages de modéliser une variable de réponse pour qu'elle soit une famille exponentielle par rapport à la normale?
EDIT: Par la famille exponentielle, je voulais dire la classe générale des distributions décrites ici .
exponential-family
habitant du nord
la source
la source
Réponses:
La famille exponentielle est beaucoup plus large que la normale. Par exemple, quel est l'avantage d'utiliser un Poisson ou un binôme au lieu d'une normale? Une utilisation normale n'est pas très utile si vous avez des comptes avec une moyenne faible. Qu'en est-il si vos données sont continues mais très correctes - peut-être des heures ou des montants monétaires? La famille exponentielle comprend le normal, le binôme, le Poisson et le Gamma comme cas spéciaux (parmi beaucoup d'autres)
Il intègre une grande variété de relations variance-moyenne .
Elle découle de la tentative de répondre à une question selon «quelles distributions sont des fonctions d'une statistique suffisante », et ainsi les modèles peuvent-ils être estimés via ML en utilisant des statistiques suffisantes très simples; cela inclut les modèles habituels disponibles dans les programmes qui correspondent aux modèles linéaires généralisés. En effet, la statistique suffisante ( ) est explicite dans la fonction de densité de famille exponentielle.T(x)
Il permet de découpler facilement la relation entre la réponse et le prédicteur de la distribution conditionnelle de la réponse (via les fonctions de liaison). Par exemple, vous pouvez adapter une relation linéaire à un modèle qui spécifie que la réponse conditionnelle a une distribution gamma ou une relation exponentielle avec une réponse gaussienne conditionnelle dans un cadre GLM.
Pour les Bayésiens, la famille exponentielle est assez intéressante car tous les membres de la famille exponentielle ont des prieurs conjugués.
la source
Pour moi, la principale motivation derrière les distributions de familles exponentielles est qu'elles sont les familles de distributions d'entropie maximales étant donné un ensemble de statistiques suffisantes et un support. En d'autres termes, il s'agit d'une distribution hypothétique minimale.
Par exemple, si vous mesurez uniquement la moyenne et la variance de la valeur réelle, le choix de modélisation le moins hypothétique est une distribution normale.
Du point de vue du calcul, il y a d'autres avantages:
Ils sont fermés sous "combinaison de preuves". Autrement dit, la combinaison de deux probabilités indépendantes de la même famille exponentielle est toujours dans la même famille exponentielle et ses paramètres naturels ne sont que la somme des paramètres naturels de ses composants. C'est pratique pour les statistiques bayésiennes.
Le gradient de l'entropie croisée entre deux distributions de familles exponentielles est la différence de leurs paramètres d'espérance. Cela signifie qu'une fonction de perte qui est une telle entropie croisée est une fonction dite de perte de correspondance , ce qui est pratique pour l'optimisation.
la source
La liste de Glen est bonne. Je vais ajouter 1 application supplémentaire pour compléter sa réponse: dériver des a priori conjugués pour l'inférence bayésienne.
Une partie centrale de l'inférence bayésienne est la dérivation des distributions postérieures . Avoir un préalable qui est conjugué à la probabilité signifie que la partie postérieure et avant appartiendra à la même classe de distributions de probabilité.p(θ|y)∝p(y|θ)p(θ) p(θ) p(y|θ) p(y|θ) p(θ)
La propriété utile à laquelle je fais référence est que, pour une probabilité de observations tirées d'une famille exponentielle à un paramètre de la formen
nous pouvons simplement écrire un conjugué avant
puis le postérieur fonctionne comme
Pourquoi cette conjugaison est-elle utile? Parce qu'il simplifie à la fois notre interprétation et notre calcul tout en effectuant l'inférence bayésienne. Cela signifie également que nous pouvons facilement trouver des expressions analytiques pour le postérieur sans avoir à faire trop d'algèbre.
la source
Vous souhaitez que votre modèle de données reflète le processus de génération. Le «processus» générant des variables gaussiennes a des caractéristiques très différentes de celles régissant l'exponentielle, et il n'est pas toujours intuitif de savoir pourquoi. Parfois, vous devez apprécier d'autres caractéristiques de distribution. À titre d'exemple, considérons que la fonction de risque pour le gaussien augmente tandis que l'exponentielle est plate. Comme exemple pratique banal, supposons que Im va vous piquer à intervalles, et l '«intervalle inter poke» sera choisi par la fonction de génération gaussienne ou exponentielle. Sous un gaussien, vous constateriez que les coups sont prévisibles et semblent très probables après de longs intervalles. Sous exponentielle, ils se sentiraient très imprévisibles. La raison en est due à la fonction génératrice, qui dépend du phénomène sous-jacent.
la source