J'ai une question sur la distribution correcte à utiliser pour créer un modèle avec mes données. J'ai effectué un inventaire forestier avec 50 parcelles, chaque parcelle mesure 20m × 50m. Pour chaque parcelle, j'ai estimé le pourcentage de couvert arboré qui ombrage le sol. Chaque parcelle a une valeur, en pourcentage, pour la couverture de la canopée. Les pourcentages vont de 0 à 0,95. Je fais un modèle de pourcentage de couvert arboré ( variable Y ), avec une matrice de variables X indépendantes basées sur l'imagerie satellite et les données environnementales.
Je ne sais pas si je devrais utiliser une distribution binomiale, car une variable aléatoire binomiale est la somme de n essais indépendants (c.-à-d. Les variables aléatoires de Bernoulli). Les valeurs en pourcentage ne sont pas la somme des essais; ce sont les pourcentages réels. Dois-je utiliser le gamma, même s'il n'a pas de limite supérieure? Dois-je convertir des pourcentages en nombres entiers et utiliser Poisson comme nombre? Dois-je rester avec Gaussian? Je n'ai pas trouvé beaucoup d'exemples dans la littérature ou dans les manuels qui tentent de modéliser des pourcentages de cette manière. Tous les conseils ou idées sont appréciés.
Merci pour vos réponses. En fait, la distribution bêta est exactement ce dont j'ai besoin et est discutée en détail dans cet article:
Eskelson, BN, Madsen, L., Hagar, JC et Temesgen, H. (2011). Estimation de la couverture végétale du sous-étage riverain avec des modèles de régression bêta et de copules. Forest Science, 57 (3), 212-221.
Ces auteurs utilisent le package betareg en R de Cribari-Neto et Zeileis.
L'article suivant décrit un bon moyen de transformer une variable de réponse bêta distribuée lorsqu'elle inclut de vrais 0 et / ou 1 dans la plage de pourcentages:
- Smithson, M. et J. Verkuilen, 2006. Un meilleur presse- citron? Régression de vraisemblance maximale avec des variables dépendantes distribuées bêta , Méthodes psychologiques, 11 (1): 54–71.
Réponses:
Vous avez raison de dire que la distribution binomiale concerne des proportions discrètes qui découlent du nombre de «succès» d'un nombre fini d'essais de Bernoulli, et que cela rend la distribution inappropriée pour vos données. Vous devez utiliser la distribution Gamma divisée par la somme de ce Gamma plus un autre Gamma. Autrement dit, vous devez utiliser la distribution bêta pour modéliser des proportions continues.
J'ai un exemple de régression bêta dans ma réponse ici: Supprimer l' effet du facteur sur les données de proportion continue en utilisant une régression en R .
la source
Les valeurs en pourcentage représentent des taux indépendants du nombre d'échantillons. Vous souhaitez utiliser ces pourcentages comme variable dépendante et l'imagerie satellite comme variable explicative. Cependant, je suppose que les 50 parcelles de l'inventaire n'avaient pas toutes le même nombre d'échantillons. Un modèle approprié qui relie ces pourcentages à d'autres variables devrait prendre en compte cette incertitude dans la mesure, donnant plus de poids sur les parcelles avec des échantillons élevés.
De plus, la répartition des erreurs dans le cas de vos données est clairement binomiale. La variance d'erreur est la plus petite aux limites, elle est capturée par une distribution binomiale.
Tout cela me semble être l'exemple archétypique de l'utilisation d'un GLM avec un modèle d'erreur binomiale.
«Statistics: An Introduction using R», le chapitre 14 de Crawley traite exactement de ce sujet et comment l'analyser avec R.
la source