Utiliser l'ANOVA sur les pourcentages?

13

J'ai un tableau avec quatre groupes (4 groupes d'IMC) comme variable indépendante (facteur). J'ai une variable dépendante qui est «pourcentage de mères qui fument pendant la grossesse».

Est-il permis d'utiliser l'ANOVA pour cela ou dois-je utiliser le chi carré ou un autre test?

a dessiné
la source

Réponses:

21

Il y a une différence entre avoir une variable binaire comme variable dépendante et avoir une proportion comme variable dépendante.

  • Variable dépendante binaire :

    • Cela ressemble à ce que vous avez. (c.-à-d., chaque mère fumait ou ne fumait pas)
    • Dans ce cas, je n'utiliserais pas ANOVA. La régression logistique avec une certaine forme de codage (peut-être un codage fictif) pour la variable prédictive catégorielle est le choix évident si vous conceptualisez la variable binaire comme variable dépendante (sinon vous pourriez faire du chi carré).
  • Proportion comme variable dépendante :

    • Cela ne ressemble pas à ce que vous avez. (c.-à-d., vous ne disposez pas de données sur la proportion du temps total de réveil qu'une mère fumait pendant la grossesse dans un échantillon de femmes enceintes qui fument).
    • Dans ce cas, l'ANOVA et les approches de modèle linéaire standard en général peuvent ou non être raisonnables pour vos besoins. Voir la réponse de @Ben Bolker pour une discussion des problèmes.
Jeromy Anglim
la source
Pour une variable dépendante binaire, dans le cas où je n'ai que des données récapitulatives pour les proportions binaires (c'est-à-dire # dans les groupes A, B et C et le nombre de succès dans le groupe A, B et C), et non les données brutes réelles, comment utiliser la régression logistique? Je ne connais que son utilisation avec les données brutes.
Bryan
15

Cela dépend de la proximité des réponses au sein de différents groupes à 0 ou 100%. S'il y a beaucoup de valeurs extrêmes (c'est-à-dire de nombreuses valeurs empilées sur 0 ou 100%), cela sera difficile. (Si vous ne connaissez pas les "dénominateurs", c'est-à-dire le nombre de sujets à partir desquels les pourcentages sont calculés, alors vous ne pouvez pas utiliser les approches de table de contingence de toute façon.) Si les valeurs au sein des groupes sont plus raisonnables, alors vous pouvez transformer le variable de réponse (par exemple, racine arquée sinusoïdale classique ou peut-être transformation logit). Il existe une variété d'approches graphiques (préférées) et d'hypothèses nulles (moins préférées) pour décider si vos données transformées répondent adéquatement aux hypothèses de l'ANOVA (homogénéité de la variance et de la normalité, la première étant plus importante que la seconde). Tests graphiques: boîtes à moustaches (homogénéité de la variance) et parcelles QQ (normalité) [ces dernières doivent être effectuées au sein de groupes ou sur des résidus]. Tests d'hypothèse nulle: par exemple test de Bartlett ou Fligner (homogénéité de la variance), Shapiro-Wilk, Jarque-Bera, etc.

Ben Bolker
la source
11

Vous devez disposer des données brutes pour que la variable de réponse soit 0/1 (pas de fumée, de fumée). Ensuite, vous pouvez utiliser la régression logistique binaire. Il n'est pas correct de regrouper l'IMC en intervalles. Les seuils ne sont pas corrects, n'existent probablement pas et vous ne testez pas officiellement si l'IMC est associé au tabagisme. Vous testez actuellement si l'IMC avec la plupart de ses informations rejetées est associé au tabagisme. Vous constaterez que les intervalles d'IMC externes sont particulièrement hétérogènes.

Frank Harrell
la source
2
@Frank - pourquoi est-il "incorrect" de grouper l'IMC? cela semble parfaitement raisonnable, tant que les résultats sont correctement interprétés. Vous pourriez bien tester, par exemple, si le fait d'avoir un «poids insuffisant», un «poids santé», un «surpoids» et «obèse» est associé au tabagisme, où ces termes sont définis par les plages d'IMC. Je ne vois aucun "mauvais" ici.
Probabilogic
Je crois que l'OP fonctionne avec un ensemble de données pédagogiques commun et peut ne pas avoir l'IMC brut. Bien qu'il ne soit généralement pas idéal de discrétiser les régresseurs continus, ce n'est pas "incorrect". Il peut même être utile d'y recourir lorsque nous soupçonnons que les mesures sont bruyantes et qu'il n'y a pas d'autre recours. En effet, la véritable hypothèse que nous voudrions tester est de savoir si l'obésité est liée au tabagisme; L'IMC n'est qu'une façon de mesurer l'obésité (et a ses problèmes d'après ce que je comprends).
JMS
4
Même lorsque les mesures sont bruyantes, l'analyse des variables en continu est supérieure. La catégorisation de l'IMC crée plus de problèmes que différents choix d'analyse peuvent résoudre. En fait, les estimations lors de la catégorisation n'ont plus d'interprétation scientifique. Une quantité scientifique est une quantité ayant un sens en dehors de l'expérience actuelle. Vous constaterez que les estimations de groupe (par exemple, les cotes logarithmiques selon lesquelles Y = 1 pour les intervalles haut vs bas de X) sont des fonctions de l'ensemble des IMC observés. Par exemple, si vous ajoutiez un IMC extrêmement élevé ou extrêmement bas à l'échantillon, les «effets» deviendraient plus forts.
Frank Harrell
Pour ceux qui ont installé R et RStudio, une démonstration interactive peut être trouvée sur biostat.mc.vanderbilt.edu/BioMod - voir le nouveau marquage vert. Vous devez charger le script dans RStudio et également installer le package Hmisc.
Frank Harrell
"Même lorsque les mesures sont bruyantes, l'analyse des variables comme continues est supérieure" C'est tout simplement incorrect (la généralité de cela, c'est - généralement c'est vrai). Imaginez que vous ayez une covariable continue où l'erreur dans sa mesure augmente avec sa magnitude, par exemple. Bien sûr, la meilleure chose à faire est de modéliser l'erreur, ou d'obtenir de meilleures mesures, etc. Mais dire que c'est incorrect est tout simplement une déclaration trop forte à faire.
JMS
3

Si vous choisissez de faire une ANOVA ordinaire sur des données proportionnelles, il est crucial de vérifier l'hypothèse de variances d'erreur homogènes. Si (comme cela est courant avec les données en pourcentage), les variances d'erreur ne sont pas constantes, une alternative plus réaliste consiste à essayer la régression bêta, qui peut expliquer cette hétéroscédasticité dans le modèle. Voici un article discutant de différentes manières alternatives de traiter une variable de réponse qui est un pourcentage ou une proportion: http://www.ime.usp.br/~sferrari/beta.pdf

Si vous utilisez R, le package betareg peut être utile.

Will Townes
la source