J'ai récemment reçu une révision de mon article de recherche et voici le commentaire de l'examinateur sur mon article:
les résultats obtenus à partir d'un modèle ne sont pas tout à fait convaincants, en particulier la régression linéaire présente généralement des lacunes dans le traitement des valeurs aberrantes. Je suggère aux auteurs d'essayer également la régression logistique et de comparer les résultats correspondants avec les résultats actuels. Si des observations similaires étaient obtenues, les résultats seraient plus solides.
Le commentaire de l'examinateur est-il correct? La régression logistique est-elle meilleure que la régression linéaire multiple?
Le problème est que ma variable dépendante n'est pas catégorique, c'est une variable d'échelle. Que puis-je faire maintenant? Quelle autre méthode de régression recommandez-vous pour évaluer mon modèle?
Le score est une variable dépendante dans le tableau suivant. La récence, la fréquence, l'ancienneté et le dernier score sont des variables indépendantes.
J'ai extrait ces variables d'un site et je fais l'hypothèse que ces variables indépendantes ont un effet significatif sur le score . Par conséquent, je représente les modèles suivants:
Soit dit en passant, la valeur de R au carré pour ce modèle linéaire est de 0,316! Le critique a également commenté cette valeur:
alors les résultats ne sont pas convaincants car il n'y a pas d'indicateur sur la qualité des coefficients appris. Un petit R ^ 2 ne peut pas indiquer de bonnes performances car le modèle peut être sur-ajusté.
Est-ce que 0,316 est très bas pour R au carré? Dans les articles précédents, j'ai vu beaucoup de valeurs similaires.
Réponses:
Le modèle de régression logistique ordinale à cotes proportionnelles devrait fonctionner correctement pour ce problème. Pour une implémentation efficace qui peut autoriser des milliers de valeurs uniques , voir la fonction dans le package R.Y
orm
rms
la source
vous pouvez également essayer des modèles probit / logit ordonnés en attribuant les valeurs 1, 2,3 et 4 aux scores des 1er, ... et 4e centiles respectivement.
la source
Vous pouvez dichotomiser (convertir en une variable binaire) le score. Si le score est compris entre 0 et 100, vous pouvez attribuer 0 à tout score inférieur à 50 et 1 sinon. Je n'ai jamais entendu auparavant que c'était une bonne façon de traiter les valeurs aberrantes. Cela pourrait simplement cacher les valeurs aberrantes car il sera impossible de distinguer les scores très élevés ou faibles. Cela n'a pas beaucoup de sens pour moi, mais vous pouvez l'essayer.
Je ne vais pas prétendre en savoir beaucoup sur les statistiques, mais il me semble, sur la base de ses commentaires, que ce critique pourrait en savoir encore moins.
la source
Il est possible d'appliquer une régression logistique même à une variable dépendante continue. Cela a du sens, si vous voulez vous assurer que le prévu
score
est toujours à l'intérieur[0, 100]
(je juge d'après vos captures d'écran qu'il est à l'échelle de 100 points).Pour ce faire, divisez simplement votre score par 100 et exécutez une régression logistique avec cette
[0,1]
variable cible basée sur, comme dans cette question - vous pouvez le faire, par exemple, avecR
, en utilisantla source