J'ai les pourcentages de classement des étudiants dans 38 examens comme variable dépendante dans mon étude. Un pourcentage de classement est calculé par (rang / nombre d'élèves dans un examen). Cette variable dépendante a une distribution presque uniforme et je veux estimer les effets de certaines variables sur la variable dépendante.
Quelle approche de régression dois-je utiliser?
regression
distributions
siren99
la source
la source
Réponses:
Si vous travaillez avec Stata, consultez l'exemple suivant: http://www.ats.ucla.edu/stat/stata/faq/proportion.htm
Voici une citation de cette page Web:
la source
Synopsis
Les résultats de la régression peuvent avoir une valeur limitée lorsqu'ils sont interprétés avec soin. Des formes de variation inévitables entraîneront une réduction substantielle des estimations de coefficient vers zéro. Un meilleur modèle est nécessaire pour gérer la variation de manière plus appropriée.
(Un modèle de maximum de vraisemblance peut être construit mais peut être impraticable en raison du calcul nécessaire, qui implique une évaluation numérique des intégrales multidimensionnelles. Le nombre de dimensions est égal au nombre d'élèves inscrits dans les classes.)
introduction
Pour raconter notre intuition, imaginez que ces 38 examens ont été dispensés dans 38 cours distincts pendant un semestre dans une petite école avec 200 étudiants inscrits. Dans une situation réaliste, ces élèves auront différentes capacités et expériences. En tant que mesures de substitution de ces capacités et expériences, nous pourrions prendre, par exemple, des scores aux tests SAT de mathématiques et verbaux et l'année au collège (1 à 4).
En règle générale, les étudiants s'inscriront à des cours en fonction de leurs capacités et de leurs intérêts. Les étudiants de première année suivent des cours d'introduction et les cours d'initiation sont principalement dispensés par des étudiants de première année. Les classes supérieures et les étudiants de première année et les étudiants de deuxième année talentueux suivent les cours de niveau avancé et supérieur. Cette sélection stratifie partiellement les étudiants sorte que les capacités innées des élèves au sein de n'importe quelle classe sont généralement plus homogènes que la répartition des capacités à travers l'école.
Ainsi, les élèves les plus capables peuvent se retrouver près du bas des classes avancées et difficiles auxquelles ils s'inscrivent, tandis que les élèves les moins capables peuvent marquer près du haut des classes d'introduction faciles qu'ils suivent. Cela peut confondre une tentative directe de relier les classements d'examen directement aux attributs des étudiants et des classes.
Une analyse
Indexez les élèves avec et laissez les attributs de l'élève i être donnés par le vecteur x i . Indexez les classes avec j et laissez les attributs de la classe j être donnés par le vecteur z j . L'ensemble des élèves inscrits en classe j est A jje je Xje j j zj j UNEj .
Supposons que la «force» de chaque élève est fonction de leurs attributs plus une valeur aléatoire, qui peut également avoir une moyenne nulle:sje
Nous modélisons l'examen en classe en ajoutant des valeurs aléatoires indépendantes à la force de chaque élève inscrit dans la classe et en les convertissant en rangs. D'où, si l'élève i est inscrit dans la classe j , son rang relatif r i , j est déterminé par sa position dans le tableau de valeurs triéj je j ri , j
Ce poste est divisé par un de plus que l'effectif total de la classe pour donner à la variable dépendante, le rang en pourcentage:ri , j
Je prétends que les résultats de la régression dépendent (pas mal) des tailles et de la structure des valeurs aléatoires (non observées) et δ i , j .εje δi , j Les résultats dépendent également précisément de la façon dont les étudiants sont inscrits dans les classes. Cela devrait être intuitivement évident, mais ce qui n'est pas si évident - et semble difficile à analyser théoriquement - c'est comment et combien les valeurs non observées et les structures de classe affectent la régression.
Simulation
Sans trop d'efforts, nous pouvons simuler cette situation pour créer et analyser des exemples de données. Un avantage de la simulation est qu'elle peut intégrer les véritables forces des étudiants, qui en réalité ne sont pas observables. Un autre est que nous pouvons faire varier les tailles typiques des valeurs non observées ainsi que les affectations de classe. Cela fournit un "bac à sable" pour évaluer les méthodes analytiques proposées telles que la régression.
Pour commencer, définissons le générateur de nombres aléatoires pour des résultats reproductibles et spécifions la taille du problème. J'utilise
R
car il est accessible à tous.Pour fournir du réalisme, créez desδi , j j
n.classes
classes de difficultés variables sur deux échelles (mathématique et verbale, avec une corrélation négative), menées à différents niveaux académiques (allant de 1 = introduction à 7 = recherche), et avec une facilité variable. (Dans une classe «facile», les différences entre les niveaux d'apprentissage des élèves peuvent être importantes et / ou l'examen peut fournir peu de discrimination entre les élèves. Ceci est modélisé par des termes aléatoires qui, pour la classe j ont tendance à être importants Les résultats de l'examen seront alors presque imprévisibles à partir des données sur la force des élèves. Lorsque la classe n'est pas "facile", ces termes aléatoires sont négligeables et les forces des élèves peuvent parfaitement déterminer le classement de l'examen.)Les étudiants sont répartis sur les quatre années et dotés de valeurs aléatoires de leurs attributs. Il n'y a aucune corrélation entre aucun de ces attributs:
beta
beta
students$ability
beta$ability
beta$sigma
ease
classes
spread
assignments <-...
(Comme exemple de ce que cette étape a accompli, voir la figure ci-dessous.)
À ces données brutes, nous attachons les attributs étudiant et classe pour créer un ensemble de données adapté à l'analyse:
Orientons-nous en inspectant un échantillon aléatoire des données:
L'enregistrement 118, par exemple, indique que l'élève n ° 28 s'est inscrit dans la classe n ° 1 et a obtenu le 22e rang (à partir du bas) à l'examen pour un pourcentage de 0,957. Le niveau de difficulté global de cette classe était de 0,0523 (très facile). Au total, 22 étudiants étaient inscrits. Cet étudiant est un étudiant en deuxième année (année 2) avec 590 mathématiques, 380 scores SAT verbaux. Leur force académique inhérente globale est de 16,9. Ils étaient inscrits dans quatre classes à l'époque.
Cet ensemble de données correspond à la description de la question. Par exemple, les rangs en pourcentage sont en effet presque uniformes (comme ils doivent l'être pour tout ensemble de données complet, car les rangs en pourcentage pour une seule classe ont une distribution uniforme discrète).
Rappelez - vous, en vertu des coefficients
beta
, ce modèle a pris une forte connexion entre les scores d'examen et les variables présentées dans cet ensemble de données. Mais que montre la régression? Regressons la logistique du rang en pourcentage par rapport à toutes les caractéristiques observables des élèves qui pourraient être liées à leurs capacités, ainsi qu'aux indicateurs de difficulté de la classe:Les tracés de diagnostic (
plot(fit)
) semblent fastastiques: les résidus sont homoscédastiques et magnifiquement normaux (quoique légèrement à queue courte, ce qui ne pose aucun problème); pas de valeurs aberrantes; et aucune influence fâcheuse dans aucune observation.level
level
(Soit dit en passant, l'utilisation des pourcentages non transformés dans la régression ne modifie pas qualitativement les résultats rapportés ci-dessous.)
spread
spread
spread
1
Cette fois, le R-carré est beaucoup amélioré (bien que toujours pas génial). Cependant, tous les coefficients ont augmenté de 20 à 100%. Ce tableau les compare avec quelques simulations supplémentaires:
spread
ability
ability
sigma
level
Cette analyse rapide montre que la régression, au moins telle qu'elle est effectuée ici, va confondre les formes inévitables de variation avec les coefficients. En outre, les coefficients dépendent également (dans une certaine mesure) de la répartition des élèves entre les classes. Cela peut être partiellement pris en compte en incluant les attributs de classe parmi les variables indépendantes dans la régression, comme cela est fait ici, mais même ainsi, l'effet de la distribution des élèves ne disparaît pas.
Tout manque de prévisibilité des performances réelles des élèves, et toute variation de l'apprentissage des élèves et des performances réelles aux examens, font apparemment ramener les estimations des coefficients à zéro. Ils semblent le faire de manière uniforme, ce qui suggère que les coefficients relatifs peuvent encore être significatifs.
la source
(Ce n'est qu'une idée de mon expérience partiale, les commentaires et les critiques sont plus que bienvenus.)
la source
la source
Dans ce cas, un modèle parfait mappera les entrées (quelles que soient les covariables que vous avez) aux sorties (le rang de l'élève dans la classe). Une autre façon de penser est de mapper d'abord les scores, puis de mapper ces scores au rang. Je vais ignorer l'erreur pour l'instant.
score du test:y= ∑ βX
rang:r = R ( y)
Dans lequelR est la fonction de classement. Le problème est queR est une fonction non linéaire qui dépend entièrement des données elles-mêmes. Si nous supposons que nous avons une quantité infinie de données, alors nous connaissons la distribution complète dey , et R ( y) est essentiellement la fonction de densité cumulée. Il vous indique quel pourcentage de personnes a obtenu un score pire que vous au test, la zone à gauche de votre score.
Cela semble être assez similaire à la forme fonctionnelle du modèle linéaire généralisé. Je pense que c'est pourquoi l'approche de régression logistique a été proposée par @Mike Anderson. Si vos résultats d'examen étaient distribués de manière logistique, alors la fonction de lien à utiliser serait le logit (son inverse est la fonction de densité cumulative qui nous tient à cœur). De même, si les scores étaient normalement distribués, la fonction probit serait la fonction de liaison.
Pour votre régression, la seule façon d'estimer les classements est de dire "étant donné que mes données sont distribuées comme X, ce point est dans le 34e centile". Sinon, comment savez-vous à quoi se traduit une augmentation de deux points de votre score au test en termes de rang? La mise en garde est que vous devez estimer cette distribution afin de choisir votre fonction de lien (certaines formes fonctionnelles vous faciliteront la vie). De plus, ce modèle ne va pas dire "vous étiez le 6e meilleur d'une classe de 38", plutôt "si les résultats des tests étaient distribués comme nous le pensons, votre score vous placerait dans le 15e centile".
la source