Régression linéaire ou régression logistique ordinale pour prédire la cote du vin (de 0 à 10)

18

J'ai les données sur le vin d' ici qui se composent de 11 variables numériques indépendantes avec une note dépendante associée à chaque entrée avec des valeurs comprises entre 0 et 10. Cela en fait un excellent ensemble de données pour utiliser un modèle de régression pour étudier la relation entre les variables et les associées évaluation. Cependant, une régression linéaire serait-elle appropriée, ou est-il préférable d'utiliser une régression logistique multinomiale / ordonnée?

La régression logistique semble meilleure étant donné des catégories spécifiques, c'est-à-dire pas une variable dépendante continue mais (1) il y a 11 catégories (un peu trop?) Et (2) lors de l'inspection, il n'y a que des données pour 6-7 de ces catégories, c'est-à-dire les autres 5-4 catégories n'ont aucun exemple dans l'ensemble de données.

D'un autre côté, la régression linéaire devrait estimer linéairement une cote entre 0-10 qui semble plus proche de ce que j'essaie de découvrir; pourtant, la variable dépendante n'est pas continue dans l'ensemble de données.

Quelle est la meilleure approche? Remarque: j'utilise R pour l'analyse

Modifier, en abordant certains des points mentionnés dans les réponses:

  • Il n'y a pas d'objectif commercial car il s'agit en fait d'un cours universitaire. La tâche consiste à analyser un ensemble de données de choix, quelle que soit la manière que je juge appropriée.
  • La distribution des notes semble normale (histogramme / qq-plot). Les valeurs réelles dans l'ensemble de données se situent entre 3-8 (même si techniquement 0-10).
Dimebag
la source

Réponses:

9

Un modèle logit ordonné est plus approprié car vous avez une variable dépendante qui est un classement, 7 vaut mieux que 4 par exemple. Il y a donc un ordre clair.

Cela vous permet d'obtenir une probabilité pour chaque bac. Il y a peu d'hypothèses que vous devez prendre en compte. Vous pouvez voir ici .

L'une des hypothèses sous-jacentes à la régression logistique ordinale (et probit ordinale) est que la relation entre chaque paire de groupes de résultats est la même. En d'autres termes, la régression logistique ordinale suppose que les coefficients qui décrivent la relation entre, par exemple, les catégories les plus faibles par rapport à toutes les catégories supérieures de la variable de réponse sont les mêmes que ceux qui décrivent la relation entre la catégorie immédiatement inférieure et toutes les catégories supérieures, etc. C'est ce qu'on appelle l'hypothèse de cotes proportionnelles ou l'hypothèse de régression parallèle.

Du code:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

Vous pouvez avoir plus d'explications ici , ici , ici ou ici .

Gardez à l'esprit que vous devrez transformer vos coefficients en odds ratio puis en probabilités pour avoir une interprétation claire en termes de probabilités.

De manière simple (et simpliste), vous pouvez les calculer en:

exp(βi)=OddsRatio

exp(β1)exp(βi)=Probability

(Je ne veux pas être trop technique)

adrian1121
la source
4

Je voudrais donner un autre point de vue sur le problème: dans le monde réel, il est moins susceptible de rencontrer cette question, car ce qu'il faut faire dépend des besoins de l'entreprise .

La question essentielle dans le monde réel est que faire après avoir obtenu la prédiction?

  • Supposons que les entreprises veuillent jeter des vins "de mauvaise qualité". Ensuite, nous avons besoin d'une définition de "comment mauvais est mauvais" (disons la qualité en dessous de ). Avec la définition, la régression logistique binaire doit être utilisée, car la décision est binaire. (poubelle ou garder, il n'y a rien au milieu).2

  • Supposons que les entreprises souhaitent sélectionner du bon vin à envoyer à trois types de restaurants. Ensuite, une classification multi-classes sera nécessaire.

En somme, je veux faire valoir que ce qu'il faut faire dépend vraiment des besoins après avoir obtenu la prédiction, au lieu de simplement regarder l'attribut de la variable de réponse.

Haitao Du
la source
1

Bien qu'un modèle logit ordonné (tel que détaillé par @ adrian1121) soit le plus approprié en termes d'hypothèses de modèle, je pense que la régression linéaire multiple présente également certains avantages.

  1. Facilité d'interprétation . Les modèles linéaires sont plus faciles à interpréter que les modèles logit ordonnés.
  2. Confort des parties prenantes . Les utilisateurs du modèle peuvent être plus à l'aise avec la régression linéaire car ils sont plus susceptibles de savoir de quoi il s'agit.
  3. Plus parcimonieux (plus simple). Le modèle plus simple peut tout aussi bien fonctionner, voir la rubrique connexe .

Le fait que la plupart des réponses se situent entre 3 et 8 me suggère qu'un modèle linéaire peut fonctionner convenablement pour vos besoins. Je ne dis pas que c'est "mieux", mais c'est peut-être une approche plus pratique.

Underminer
la source
0

En principe, le modèle logit ordonné semble approprié, mais 10 (ou même 7) catégories, c'est beaucoup.

1 / Éventuellement, serait-il judicieux de procéder à un recodage (par exemple, les notes 1 à 4 seraient fusionnées en une seule modalité, disons «note faible»)?

2 / Quelle est la répartition des notations? Si elle est assez bien répartie normalement, une régression linéaire ferait du bon travail (voir modèle de probabilité linéaire ).

3 / Sinon, j'opterais pour quelque chose de complètement différent appelé " régression bêta " - Une échelle de notation à 11 points est quelque chose d'assez détaillé par rapport à une échelle de 5 points classique - Je pense qu'il serait acceptable de considérer l'échelle de notation comme une "intensité" échelle où 0 = nul et 1 = complet / parfait - En faisant cela, vous supposeriez essentiellement que votre échelle est de type intervalle (plutôt que ordinale), mais pour moi, cela semble acceptable.

Umka
la source
3
Pourquoi 10 (ou 7) catégories sont-elles si nombreuses? Y a-t-il une raison technique fondamentale pour laquelle 10 catégories ne se comporteront pas correctement dans un modèle logit ordonné, ou parlez-vous d'un point de vue purement pratique? (par exemple, des considérations similaires à la réponse donnée par hxd1011.)
RM
Non, il n'y a pas de raison technique tant que les données permettent d'estimer un logit ordonné (OL) avec "tant" de catégories. Cependant, la spécification d'un modèle OL avec 11 catégories implique d'estimer 10 termes "constants" (c'est-à-dire des paramètres de seuil) - Cela me semble beaucoup, surtout si certaines catégories ne sont pas bien représentées dans la base de données - Mon instinct est qu'un modèle OL pour 11 catégories est un peu exagéré, je traiterais les notes comme des variables continues ou réduirais certaines modalités pour spécifier un modèle OL plus parcimonieux (et peut-être plus significatif).
Umka
-1

Je ne suis pas un spécialiste de la régression logistique, mais je dirais que vous souhaitez utiliser le multinomial à cause de votre variable dépendante discrète.

Une régression linéaire pourrait produire des coefficients qui peuvent être extrapolés à partir des limites possibles de votre variable dépendante (c.-à-d. Une augmentation de la variable indépendante conduirait à une variable dépendante hors de votre frontière pour le coefficient de régression donné).

La régression multinomiale donnera les différentes probabilités pour les différents résultats de votre variable dépendante (c'est-à-dire que le coefficient de votre régression vous indiquera comment elles augmentent leur probabilité de donner un meilleur score, sans que le score soit hors limites).

denis
la source
3
Multinomial est bon pour plusieurs catégories non ordonnées. La logistique ordinale (ce que OP propose dans la question) est bonne pour plusieurs catégories ordonnées.
Gregor --reinstate Monica--
-1

Une autre possibilité consiste à utiliser une forêt aléatoire. Il existe deux façons de mesurer "l'importance" d'une variable sous une forêt aléatoire:

  1. XjXjXjYX
  2. XjXj

Les forêts aléatoires se prêtent également à un type de visualisation de données appelé "tracé de dépendance partielle". Consultez ce didacticiel détaillé pour plus de détails.

La dépendance partielle et l'importance de la permutation ne sont pas spécifiques aux modèles de forêt aléatoire, mais leur popularité a augmenté avec la popularité des forêts aléatoires en raison de l'efficacité avec laquelle elles sont calculées pour les modèles de forêt aléatoire.

shadowtalker
la source
1
Je sais que c'est une réponse quelque peu tangentielle, mais j'aimerais savoir pourquoi cela a été rejeté. Est-ce incorrect?
shadowtalker