Données de base : j'ai environ 1 000 personnes marquées par des évaluations: «1», [bon] «2», [moyen] ou «3» [mauvais] - ce sont les valeurs que j'essaie de prédire pour les personnes à l'avenir . En plus de cela, j'ai quelques informations démographiques: sexe (catégorique: H / F), âge (numérique: 17-80) et race (catégorique: noir / caucasien / latino).
J'ai principalement quatre questions:
J'essayais initialement d'exécuter l'ensemble de données décrit ci-dessus comme une analyse de régression multiple. Mais j'ai récemment appris que puisque ma personne à charge est un facteur ordonné et non une variable continue, je devrais utiliser la régression logistique ordinale pour quelque chose comme ça. J'utilisais initialement quelque chose comme
mod <- lm(assessment ~ age + gender + race, data = dataset)
, est-ce que quelqu'un peut m'orienter dans la bonne direction?À partir de là, en supposant que j'obtienne des coefficients avec lesquels je me sens à l'aise, je comprends comment insérer uniquement des valeurs numériques pour x1, x2, etc. - mais comment gérer la race, par exemple, lorsqu'il y a plusieurs réponses: noir / caucasien / latino? Donc, si cela me dit que le coefficient caucasien est de 0,289 et que quelqu'un que j'essaie de prédire est caucasien, comment puis-je le rebrancher puisque la valeur n'est pas numérique?
J'ai également des valeurs aléatoires qui manquent - certaines pour la race, d'autres pour le sexe, etc. Dois-je faire quelque chose de plus pour m'assurer que cela ne biaise rien? (J'ai remarqué lorsque mon ensemble de données est chargé dans R-Studio, lorsque les données manquantes sont chargées en tant que
NA
, R dit quelque chose comme(162 observations deleted due to missingness)
- mais s'ils sont chargés en tant que blancs, cela ne fait rien.)En supposant que tout cela fonctionne et que j'ai de nouvelles données sur le sexe, l'âge et la race que je veux prédire - existe-t-il un moyen plus simple dans R de faire tout cela par le biais de ma formule avec de nouveaux coefficients, plutôt que de le faire manuellement? (Si cette question ne convient pas ici, je peux la reprendre sur le forum R.)
latino
, et les nuls pour les deux autres. Une valeur 1 pour lecaucasian
mannequin indique un répondant caucasien, similaire pour lablack
variable muette. Une valeur 0 pour les deux indique un répondant latino-américain. Ça a du sens?