J'ai trois variables:
- distance (continu, plage variable infini négatif à infini positif)
- isLand (catégorique discrète / booléenne, plage de variables 1 ou 0)
- occupants (catégorie discrète, plage variable de 0 à 7)
Je souhaite répondre aux questions statistiques suivantes:
- Comment comparer des distributions qui ont à la fois une variable catégorielle et continue. Par exemple, j'aime déterminer si la distribution des données de distance par rapport aux occupants varie en fonction de la valeur d'isLand.
- Étant donné deux des trois variables, puis-je prédire la troisième en utilisant une équation?
- Comment puis-je déterminer l'indépendance avec plus de deux variables?
categorical-data
continuous-data
Elpezmuerto
la source
la source
occupants
ce que vous avez est une variable ordinale, donc je ne la considérerais pas comme catégorique. Surtout avec 8 valeurs, c'est presque continu.Réponses:
Je recommanderais de lire sur les modèles logistiques ou log-linéaires en particulier, et sur les méthodes d'analyse catégorielle des données en général. Les notes sur le cours suivant sont assez bonnes pour commencer: Analyse des données discrètes . Le manuel d'Agresti est assez bon. Vous pouvez également envisager Kleinbaum pour un démarrage rapide.
la source
dist ~ occ | isLand
utiliser Lattice, ou voir lacoplot()
fonction dans levcd
package - c'est à des fins exploratoires; la question 2 appelle à un modèle de prédiction; selon la variable que vous considérez comme votre résultat, il peut s'agir d'une régression logistique (par exemple si Y = isLand), d'une régression linéaire (par exemple si Y = distance), ou directement d'un modèle log-linéaire vous permettant de classer votre mesure continue; la question 3 est clairement un modèle log-linéaire comme suggéré par @ars.Pour examiner la relation entre un facteur continu et catégorique, un bon point de départ consiste à utiliser des diagrammes rectangulaires côte à côte, continus à gauche, catégoriels en bas. Les moyens sont-ils différents? Utilisez l'ANOVA pour vérifier.
Pour examiner la relation entre les facteurs catégoriels, un bon début consiste à utiliser un graphique en mosaïque, ainsi qu'un tableau de contingence. Vous pouvez d'abord grouper puis faire des tracés séparés.
Pour prédire les occupants, la régression logistique ordinale est probablement la meilleure voie à suivre.
Pour prédire isLand, la régression logistique (binomiale) devrait faire l'affaire.
Pour prédire la distance, la régression OLS fonctionnera.
la source