Je travaille dans la recherche sur les services de santé. Nous collectons les résultats rapportés par les patients, par exemple la fonction physique ou les symptômes dépressifs, et ils sont fréquemment notés dans le format que vous avez mentionné: une échelle de 0 à N générée en résumant toutes les questions individuelles de l'échelle.
La grande majorité de la littérature que j'ai passée en revue vient d'utiliser un modèle linéaire (ou un modèle linéaire hiérarchique si les données proviennent d'observations répétées). Je n'ai encore vu personne utiliser la suggestion de @ NickCox pour un modèle logit (fractionnaire), bien qu'il s'agisse d'un modèle parfaitement plausible.
La théorie de la réponse aux items me semble être un autre modèle statistique plausible à appliquer. C'est là que vous supposez qu'un trait latent provoque des réponses aux questions en utilisant un modèle logistique ou logistique ordonné. Cela traite intrinsèquement les problèmes de délimitation et de non-linéarité possibles que Nick a soulevés.θ
Le graphique ci-dessous découle de mon travail de thèse à venir. C'est là que j'adapte un modèle linéaire (rouge) à un score de question sur les symptômes dépressifs qui a été converti en scores Z et un modèle IRT (explicatif) en bleu aux mêmes questions. Fondamentalement, les coefficients des deux modèles sont à la même échelle (c.-à-d. En écarts-types). Il y a en fait pas mal d'accord sur la taille des coefficients. Comme Nick l'a mentionné, tous les modèles ont tort. Mais le modèle linéaire n'est peut-être pas trop mal utilisé.
Cela dit, une hypothèse fondamentale de presque tous les modèles IRT actuels est que le trait en question est bipolaire, c'est-à-dire que son support est to . Ce n'est probablement pas le cas des symptômes dépressifs. Des modèles de traits latents unipolaires sont encore en cours de développement et les logiciels standard ne peuvent pas les adapter. Un grand nombre des caractéristiques de la recherche sur les services de santé qui nous intéressent sont probablement unipolaires, par exemple les symptômes dépressifs, d'autres aspects de la psychopathologie, la satisfaction des patients. Le modèle IRT peut donc également être erroné.−∞∞
(Remarque: le modèle ci-dessus était adapté à l'ensemble de Phil Chalmers mirt
dans R. Graph produit à l'aide de ggplot2
et ggthemes
. Le schéma de couleurs est tiré du schéma de couleurs par défaut de Stata.)
Jetez un œil aux valeurs prévues et vérifiez si elles ont à peu près la même distribution que les Y d'origine. Si tel est le cas, la régression linéaire est probablement correcte. et vous gagnerez peu en améliorant votre modèle.
la source
Une régression linéaire peut décrire "adéquatement" de telles données, mais c'est peu probable. De nombreuses hypothèses de régression linéaire ont tendance à être violées dans ce type de données à un point tel que la régression linéaire devient mal avisée. Je vais juste choisir quelques hypothèses comme exemples,
Les violations de ces hypothèses sont atténuées si les données ont tendance à tomber autour du centre de la plage, loin des bords. Mais en réalité, la régression linéaire n'est pas l'outil optimal pour ce type de données. De bien meilleures alternatives pourraient être la régression binomiale ou la régression du poisson.
la source
Si la réponse ne prend que quelques catégories, vous pourrez peut-être utiliser des méthodes de classification ou une régression ordinale si votre variable de réponse est ordinale.
Une régression linéaire simple ne vous donnera ni catégories discrètes ni variables de réponse bornées. Ce dernier peut être corrigé en utilisant un modèle logit comme dans la régression logistique. Pour quelque chose comme un score de test avec 100 catégories 1-100, vous pourriez aussi bien simplifier votre prédiction et utiliser une variable de réponse bornée.
la source
utiliser un cdf (fonction de distribution cumulative à partir des statistiques). si votre modèle est y = xb + e, changez-le en y = cdf (xb + e). Vous devrez redimensionner vos données de variable dépendante pour qu'elles se situent entre 0 et 1. S'il s'agit de nombres positifs, divisez-les par maximum et prenez vos prédictions de modèle et multipliez-les par le même nombre. Ensuite, vérifiez l'ajustement et voyez si les prédictions limitées améliorent les choses.
Vous voudrez probablement utiliser un algorithme prédéfini pour prendre soin des statistiques pour vous.
la source