Ma variable dépendante ci-dessous ne correspond à aucune distribution de stock que je sache. La régression linéaire produit des résidus quelque peu anormaux et asymétriques à droite qui se rapportent au Y prédit de manière étrange (2e graphique). Avez-vous des suggestions de transformations ou d'autres façons d'obtenir les résultats les plus valides et la meilleure précision prédictive? Si possible, je voudrais éviter de classer maladroitement, disons, 5 valeurs (par exemple, 0, lo%, med%, hi%, 1).
25
Réponses:
Les méthodes de régression censurée peuvent gérer des données comme celle-ci. Ils supposent que les résidus se comportent comme dans la régression linéaire ordinaire mais ont été modifiés de telle sorte que
(Censure à gauche): toutes les valeurs inférieures à un seuil bas, indépendant des données (mais pouvant varier d'un cas à l'autre) n'ont pas été quantifiées; et / ou
(Censure à droite): toutes les valeurs supérieures à un seuil haut, indépendant des données (mais pouvant varier d'un cas à l'autre) n'ont pas été quantifiées.
«Non quantifié» signifie que nous savons si une valeur tombe en dessous (ou au-dessus) de son seuil, mais c'est tout.
Les méthodes d'ajustement utilisent généralement un maximum de vraisemblance. Lorsque le modèle de la réponse correspondant à un vecteur X est sous la formeOui X
avec iid ayant une distribution commune F σ avec PDF f σ (où σ sont des "paramètres de nuisance" inconnus), alors - en l'absence de censure - la probabilité logarithmique des observations ( x i , y i ) estε Fσ Fσ σ ( xje, yje)
D'après mon expérience, de telles méthodes peuvent bien fonctionner lorsque moins de la moitié des données sont censurées; sinon, les résultats peuvent être instables.
Voici un
R
exemple simple utilisant lecensReg
package pour illustrer comment OLS et les résultats censurés peuvent différer (beaucoup) même avec beaucoup de données. Il reproduit qualitativement les données de la question.Utilisons les deux
lm
etcensReg
pour ajuster une ligne:Les résultats de cette régression censurée, donnés par
print(fit)
, sontL'ajustement OLS, donné par
print(fit.OLS)
, estsummary
À titre de comparaison, limitons la régression aux données quantifiées:
Encore pire!
Quelques photos résument la situation.
la source
Les valeurs sont-elles toujours comprises entre 0 et 1?
Si c'est le cas, vous pourriez envisager une distribution bêta et une régression bêta.
Mais assurez-vous de bien réfléchir au processus qui mène à vos données. Vous pouvez également faire un modèle gonflé 0 et 1 (0 modèles gonflés sont courants, vous devrez probablement étendre à 1 gonflé par vous-même). La grande différence est que ces pointes représentent un grand nombre de 0 et 1 exacts ou simplement des valeurs proches de 0 et 1.
Il peut être préférable de consulter un statisticien local (avec un accord de non-divulgation afin que vous puissiez discuter des détails d'où proviennent les données) pour déterminer la meilleure approche.
la source
En accord avec les conseils de Greg Snow, j'ai entendu dire que les modèles bêta sont également utiles dans de telles situations (voir Smithson & verkuilen, 2006, A Better Lemon Squeezer ), ainsi que la régression quantile ( Bottai et al., 2010 ), mais ces semblent être des effets de sol et de plafond si prononcés qu'ils peuvent être inappropriés (en particulier la régression bêta).
Une autre alternative serait de considérer les types de modèles de régression censurés, en particulier le modèle Tobit , où nous considérons que les résultats observés sont générés par une variable latente sous-jacente continue (et vraisemblablement normale). Je ne vais pas dire que ce modèle continu sous-jacent est raisonnable compte tenu de votre histogramme, mais vous pouvez le trouver car vous voyez que la distribution (en ignorant le sol) a une densité plus élevée à des valeurs inférieures de l'instrument et se réduit lentement à des valeurs plus élevées. valeurs.
Bonne chance cependant, cette censure est si dramatique qu'il est difficile d'imaginer récupérer beaucoup d'informations utiles dans les compartiments extrêmes. Il me semble que près de la moitié de votre échantillon se trouve dans les bacs de plancher et de plafond.
la source