Analyse continue et catégorielle des données variables

9

J'ai trois variables:

  • distance (continu, plage variable infini négatif à infini positif)
  • isLand (catégorique discrète / booléenne, plage de variables 1 ou 0)
  • occupants (catégorie discrète, plage variable de 0 à 7)

Je souhaite répondre aux questions statistiques suivantes:

  • Comment comparer des distributions qui ont à la fois une variable catégorielle et continue. Par exemple, j'aime déterminer si la distribution des données de distance par rapport aux occupants varie en fonction de la valeur d'isLand.
  • Étant donné deux des trois variables, puis-je prédire la troisième en utilisant une équation?
  • Comment puis-je déterminer l'indépendance avec plus de deux variables?
Elpezmuerto
la source
1
Je vous recommanderais de diviser cela en trois questions distinctes.
Shane
En fait, maintenant que je l'ai lu un peu plus près, je vois que la réponse pour chacun est très étroitement liée.
Shane
J'ai senti que le cœur de la question est de comparer deux distributions différentes, il se trouve que j'énumère trois façons différentes de le faire.
Elpezmuerto
Car occupantsce que vous avez est une variable ordinale, donc je ne la considérerais pas comme catégorique. Surtout avec 8 valeurs, c'est presque continu.
Mike Dunlavey

Réponses:

5

Je recommanderais de lire sur les modèles logistiques ou log-linéaires en particulier, et sur les méthodes d'analyse catégorielle des données en général. Les notes sur le cours suivant sont assez bonnes pour commencer: Analyse des données discrètes . Le manuel d'Agresti est assez bon. Vous pouvez également envisager Kleinbaum pour un démarrage rapide.

ars
la source
J'ai actuellement le manuel Agresti sur mon bureau et je l'utilise. Le problème est que je ne savais pas quelle méthodologie spécifique je devais utiliser.
Elpezmuerto
2
@Elpezmuerto Très brièvement, pour compléter la réponse @ars, la question 1 peut être répondue par un tracé conditionnel ou en treillis, par exemple, comme dist ~ occ | isLandutiliser Lattice, ou voir la coplot()fonction dans le vcdpackage - c'est à des fins exploratoires; la question 2 appelle à un modèle de prédiction; selon la variable que vous considérez comme votre résultat, il peut s'agir d'une régression logistique (par exemple si Y = isLand), d'une régression linéaire (par exemple si Y = distance), ou directement d'un modèle log-linéaire vous permettant de classer votre mesure continue; la question 3 est clairement un modèle log-linéaire comme suggéré par @ars.
chl
1
@Elpezmuerto @ars Grâce au travail de Laura Thompson, le livre d'Agresti est également disponible en R, j.mp/9fXheu :-)
chl
2
@chl: c'est une bonne trouvaille! Je vous remercie. @Elpezmuerto: Il y a une série d'exemples dans Agresti concernant les crabes - je suis presque sûr qu'il y a une variable continue (taille du crabe?) Avec une couleur (gamme) et un booléen (ne me souviens pas). Donc, assez proche de votre cas - il est probablement instructif de lire ces exemples qui s'étendent sur au moins 2 chapitres (un chapitre est la régression logistique je crois).
ars
@ars Ce sont esp. chapitres 4 et 5, avec la largeur et le poids de la carapace comme variables continues et l'état de la colonne vertébrale comme une autre variable catégorielle (ordinale), utilisés dans la régression de Poisson et de la logistique :)
chl
2
  1. Pour examiner la relation entre un facteur continu et catégorique, un bon point de départ consiste à utiliser des diagrammes rectangulaires côte à côte, continus à gauche, catégoriels en bas. Les moyens sont-ils différents? Utilisez l'ANOVA pour vérifier.

  2. Pour examiner la relation entre les facteurs catégoriels, un bon début consiste à utiliser un graphique en mosaïque, ainsi qu'un tableau de contingence. Vous pouvez d'abord grouper puis faire des tracés séparés.

  3. Pour prédire les occupants, la régression logistique ordinale est probablement la meilleure voie à suivre.

  4. Pour prédire isLand, la régression logistique (binomiale) devrait faire l'affaire.

  5. Pour prédire la distance, la régression OLS fonctionnera.

Neil McGuigan
la source