J'ai les données sur le vin d' ici qui se composent de 11 variables numériques indépendantes avec une note dépendante associée à chaque entrée avec des valeurs comprises entre 0 et 10. Cela en fait un excellent ensemble de données pour utiliser un modèle de régression pour étudier la relation entre les variables et les associées évaluation. Cependant, une régression linéaire serait-elle appropriée, ou est-il préférable d'utiliser une régression logistique multinomiale / ordonnée?
La régression logistique semble meilleure étant donné des catégories spécifiques, c'est-à-dire pas une variable dépendante continue mais (1) il y a 11 catégories (un peu trop?) Et (2) lors de l'inspection, il n'y a que des données pour 6-7 de ces catégories, c'est-à-dire les autres 5-4 catégories n'ont aucun exemple dans l'ensemble de données.
D'un autre côté, la régression linéaire devrait estimer linéairement une cote entre 0-10 qui semble plus proche de ce que j'essaie de découvrir; pourtant, la variable dépendante n'est pas continue dans l'ensemble de données.
Quelle est la meilleure approche? Remarque: j'utilise R pour l'analyse
Modifier, en abordant certains des points mentionnés dans les réponses:
- Il n'y a pas d'objectif commercial car il s'agit en fait d'un cours universitaire. La tâche consiste à analyser un ensemble de données de choix, quelle que soit la manière que je juge appropriée.
- La distribution des notes semble normale (histogramme / qq-plot). Les valeurs réelles dans l'ensemble de données se situent entre 3-8 (même si techniquement 0-10).
la source
Je ne suis pas un spécialiste de la régression logistique, mais je dirais que vous souhaitez utiliser le multinomial à cause de votre variable dépendante discrète.
Une régression linéaire pourrait produire des coefficients qui peuvent être extrapolés à partir des limites possibles de votre variable dépendante (c.-à-d. Une augmentation de la variable indépendante conduirait à une variable dépendante hors de votre frontière pour le coefficient de régression donné).
La régression multinomiale donnera les différentes probabilités pour les différents résultats de votre variable dépendante (c'est-à-dire que le coefficient de votre régression vous indiquera comment elles augmentent leur probabilité de donner un meilleur score, sans que le score soit hors limites).
la source
Une autre possibilité consiste à utiliser une forêt aléatoire. Il existe deux façons de mesurer "l'importance" d'une variable sous une forêt aléatoire:
Les forêts aléatoires se prêtent également à un type de visualisation de données appelé "tracé de dépendance partielle". Consultez ce didacticiel détaillé pour plus de détails.
La dépendance partielle et l'importance de la permutation ne sont pas spécifiques aux modèles de forêt aléatoire, mais leur popularité a augmenté avec la popularité des forêts aléatoires en raison de l'efficacité avec laquelle elles sont calculées pour les modèles de forêt aléatoire.
la source