J'ai quelques données en [0,1] que je voudrais analyser avec une régression bêta. Bien sûr, quelque chose doit être fait pour s'adapter aux valeurs 0,1. Je n'aime pas modifier les données pour les adapter à un modèle. Je ne pense pas non plus que l'inflation zéro et 1 soit une bonne idée car je pense que dans ce cas, il faut considérer les 0 comme de très petites valeurs positives (mais je ne veux pas dire exactement quelle valeur est appropriée. Un choix raisonnable Je pense que ce serait de choisir de petites valeurs comme .001 et .999 et d'ajuster le modèle en utilisant la dist cumulative pour le bêta. Donc pour les observations y_i la log log vraisemblance LL_iwould être
if y_i < .001 LL+=log(cumd_beta(.001))
else if y_i>.999 LL+=log(1.0-cum_beta(.999))
else LL+=log(beta_density(y_i))
Ce que j'aime dans ce modèle, c'est que si le modèle de régression bêta est valide, ce modèle l'est également, mais il supprime un peu la sensibilité aux valeurs extrêmes. Cependant, cela semble être une approche tellement naturelle que je me demande pourquoi je ne trouve aucune référence évidente dans la littérature. Donc ma question est au lieu de modifier les données, pourquoi ne pas modifier le modèle. La modification des données biaise les résultats (sur la base de l'hypothèse que le modèle d'origine est valide), tandis que la modification du modèle en regroupant les valeurs extrêmes ne biaise pas les résultats.
Peut-être qu'il y a un problème que je néglige?
la source
Réponses:
Selon cet article , une transformation appropriée est
Cela compressera les données qui se trouvent dans pour être dans ( 0 , 1 ) . La citation ci-dessus et une raison mathématique de la transformation sont disponibles dans les notes supplémentaires de l' article .[0,1] (0,1)
la source
Dave,
Une approche courante de ce problème consiste à ajuster 2 modèles de régression logistique pour prédire si un cas est 0 ou 1. Ensuite, une régression bêta est utilisée pour ceux de la gamme (0,1).
la source
Je crois que les deux sont facilement estimés de manière bayésienne car ils sont tous les deux des familles exponentielles. Il s'agit d'une modification du modèle que vous espériez.
la source
Je pense que la réponse "correcte" à cette question est une régression bêta gonflée de zéro. Ceci est conçu pour gérer des données qui varient en continu sur l'intervalle [0,1], et permet à de nombreux vrais 0 et 1 d'être dans les données. Cette approche correspond à trois modèles distincts dans un contexte bayésien, similaire à ce que propose @B_Miner.
Modèle 1: une valeur est-elle un 0/1 discret, ou la valeur est-elle en (0,1)? Monter avec une distribution bernoulli.
Modèle 2: ajustement d'un sous-ensemble discret avec une distribution de Bernoulli.
Modèle 3: ajustement du sous-ensemble (0,1) avec régression bêta.
Pour la prédiction, les premiers résultats du modèle peuvent être utilisés pour pondérer les prédictions des modèles 2 et 3. Cela peut être implémenté dans le
zoib
package R, ou brassé à la maison dans BUGS / JAGS / STAN / etc.la source