Construire un modèle linéaire pour un rapport vs pourcentage?

20

Supposons que je veuille construire un modèle pour prédire une sorte de ratio ou de pourcentage. Par exemple, disons que je veux prédire le nombre de garçons par rapport aux filles qui assisteront à une fête, et les caractéristiques de la fête que je peux utiliser dans le modèle sont des choses comme la quantité de publicité pour la fête, la taille du lieu, s'il y a sera tout alcool à la fête, etc. (Ceci est juste un exemple inventé; les fonctionnalités ne sont pas vraiment importantes.)

Ma question est: quelle est la différence entre la prédiction d'un ratio par rapport à un pourcentage, et comment mon modèle change-t-il en fonction de celui que je choisis? Est-ce que l'un est meilleur que l'autre? Une autre fonction est-elle meilleure que l'une ou l'autre? (Je ne me soucie pas vraiment des nombres spécifiques de ratio par rapport au pourcentage; je veux juste être en mesure d'identifier quelles parties sont plus susceptibles d'être des "parties de garçon" par rapport aux "parties de fille".) Par exemple, je suis en pensant:

  • Si je veux prédire un pourcentage (disons, # boys / (# boys + # girls)alors comme ma fonction dépendante est limitée entre 0 et 1, je devrais probablement utiliser quelque chose comme une régression logistique au lieu d'une régression linéaire.
  • Si je veux prédire un ratio (par exemple, # boys / # girlsou # boys / (1 + # girls)pour éviter les erreurs de division par zéro), alors ma fonction dépendante est positive, alors devrais-je peut-être appliquer une sorte de transformation (log?) Avant d'utiliser une régression linéaire? (Ou un autre modèle? Quels types de modèles de régression sont utilisés pour les données positives sans dénombrement?)
  • Est-il préférable de prédire (par exemple) le pourcentage plutôt que le ratio, et si oui, pourquoi?
raegtin
la source
En fonction de votre application particulière et de ce que vous essayez de modéliser, vous devriez envisager d'utiliser l'analyse de données de composition ( en.wikipedia.org/wiki/Compositional_data ); il y a des choses subtiles à considérer lorsque les caractéristiques (variables indépendantes) totalisent l'unité. Veuillez consulter le travail de John Aitchison.
ctbrown

Réponses:

9

Je n'ai jamais vu de modèle de régression pour les ratios auparavant, mais la régression pour un pourcentage (ou plus communément une fraction) est assez courante. La raison peut être qu'il est facile d'écrire une vraisemblance (probabilité des données en fonction de votre paramètre) en termes de fraction ou de probabilité : chaque élément a une probabilité d'être dans la catégorie (vs ). L'estimation de est alors la fraction estimée.pUNEBp

[0,1]

01

Journal

jpillow
la source
15

Faisant écho à la première réponse. Ne vous embêtez pas à convertir - modélisez simplement les nombres et les covariables directement.

Si vous faites cela et que vous ajustez un modèle de régression binomial (ou de logistique équivalente) au nombre de filles, vous devrez, si vous choisissez la fonction de lien habituelle pour ces modèles, impliquer déjà implicitement un rapport (journalisé lissé covariable) garçons / filles. C'est le prédicteur linéaire.

La principale raison de modéliser les nombres directement plutôt que les proportions ou les ratios est que vous ne perdez pas d'informations. Intuitivement, vous seriez beaucoup plus confiant quant aux inférences d'un ratio observé de 1 (garçons / filles) si cela venait de voir 100 garçons et 100 filles que de voir 2 et 2. Par conséquent, si vous avez des covariables, vous en aurez plus des informations sur leurs effets et potentiellement un meilleur modèle prédictif.

conjugateprior
la source