Quelles sont les hypothèses pour appliquer un modèle de régression Tobit?

9

Ma connaissance (très basique) du modèle de régression Tobit ne vient pas d'une classe, comme je le préférerais. Au lieu de cela, j'ai récupéré des informations ici et là grâce à plusieurs recherches sur Internet. Ma meilleure estimation des hypothèses de régression tronquée est qu'elles sont très similaires aux hypothèses des moindres carrés ordinaires (OLS). Je n'ai aucune idée si c'est correct, cependant.

D'où ma question: quelles sont les hypothèses à vérifier lors de la régression Tobit?

Remarque: La forme originale de cette question faisait référence à une régression tronquée, qui n'était pas le modèle que j'utilisais ou sur lequel je posais des questions. J'ai corrigé la question.

regression assumptions Firefeather
la source

1

Vous ne devez pas utiliser la régression tronquée simplement parce que vous avez des données asymétriques ou limitées. C'est spécifiquement pour les situations où des valeurs inférieures à un seuil (par exemple des valeurs négatives) sont possibles, mais ne seraient pas observées pour une raison quelconque. Est-ce la situation que vous avez?

Aniko

@Aniko, les valeurs négatives de la variable dépendante n'ont pas vraiment de sens (cela signifierait être payé pour recevoir un service), mais j'avais entendu dire que Wooldridge (dans Econometric Analysis of Cross Section and Panel Data , 2002) avait recommandé de tronquer ou des modèles de régression censurés au lieu de OLS lorsque mais est une variable aléatoire continue sur les valeurs positives.

P (Y = 0) > 0

$P(Y=0)>0$

Y

$Y$

Firefeather

Grosse erreur; J'ai réalisé que je voulais dire la régression Tobit tout le temps, pas la régression tronquée . Je viens de changer la question pour refléter cette erreur.

Firefeather

La référence Wooldridge est toujours la référence correcte; c'est-à-dire qu'il fait référence à la régression Tobit.

Firefeather

Aniko a raison, ce tobit n'est peut-être pas le meilleur choix. Jetez un œil aux éléments suivants pour en savoir plus sur les alternatives: ideas.repec.org/p/boc/bost10/2.html

6

Si nous optons pour une réponse simple, l'extrait du livre Wooldridge (page 533) est très approprié:

... à la fois l'hétéroskédasticité et la non-normalité font que l'estimateur Tobit n'est pas cohérent pour . Cette incohérence se produit parce que la densité dérivée de donnée dépend essentiellement de . Cette non-robustesse de l'estimateur Tobit montre que la censure des données peut être très coûteuse: en l'absence de censure ( ) pourrait être estimé de manière cohérente sous [ou même ]. $\hat{\beta}$ $\beta$ $y$ $x$ $y^*|x\sim\mathrm{Normal}(x\beta,\sigma^2)$ $y=y^*$ $\beta$ $E(u|x)=0$ $E(x'u)=0$

Les notations de cet extrait proviennent du modèle Tobit:

\begin{aligned} y^{*} & = x β + u, u | x \sim N (0, σ^{2}) \\ y^{*} & = max (y^{*}, 0) \end{aligned}

$\begin{align} y^{*}&=x\beta+u, \quad u|x\sim N(0,\sigma^2)\\ y^{*}&=\max(y^*,0) \end{align}$ où et sont observés.

y

$y$

x

$x$

Pour résumer la différence entre les moindres carrés et la régression Tobit est l'hypothèse inhérente de normalité dans ce dernier.

De plus, j'ai toujours pensé que l' article original d'Amemyia était assez agréable pour exposer les fondements théoriques de la régression Tobit.

mpiktas
la source

Hou la la! Merci d'avoir trouvé une référence visible - je n'avais pas pensé à consulter Google Livres lorsque je cherchais une copie du livre de Wooldridge.

Firefeather

4

Pour faire écho au commentaire d'Aniko: l'hypothèse principale est l'existence de la troncature. Ce n'est pas la même hypothèse que les deux autres possibilités que votre article me suggère: délimitation et sélection de l'échantillon.

Si vous avez une variable dépendante fondamentalement limitée plutôt qu'une variable tronquée, vous voudrez peut-être passer à un cadre de modèle linéaire généralisé avec l'une des distributions (moins souvent choisies) pour Y, par exemple log-normal, gamma, exponentielle, etc. qui respectent cela borne inférieure.

Vous pouvez également vous demander si vous pensez que le processus qui génère les observations nulles dans votre modèle est le même que celui qui génère les valeurs strictement positives - les prix dans votre application, je pense. Si ce n'est pas le cas, alors quelque chose de la classe des modèles de sélection d'échantillons (par exemple les modèles Heckman) pourrait être approprié. Dans ce cas, vous seriez dans la situation de spécifier un modèle de volonté de payer n'importe quel prix, et un autre modèle de prix que vos sujets paieraient s'ils voulaient payer quelque chose.

En bref, vous souhaiterez probablement examiner la différence entre l'hypothèse de variables dépendantes tronquées, censurées, limitées et d'échantillonnage sélectionnées. Lequel vous voulez proviendra des détails de votre demande. Une fois que cette première hypothèse la plus importante est faite, vous pouvez plus facilement déterminer si vous aimez les hypothèses spécifiques de n'importe quel modèle dans la classe choisie. Certains modèles de sélection d'échantillons ont des hypothèses qui sont assez difficiles à vérifier ...

conjugateprior
la source

3

@Firefeather: Vos données contiennent-elles (et ne peuvent-elles vraiment contenir) que des valeurs positives? Si tel est le cas, modélisez-le à l'aide d'un modèle linéaire généralisé avec erreur gamma et lien de journal. S'il contient des zéros, vous pouvez alors envisager une étape en deux étapes (régression logistique pour la probabilité de zéro et régression gamma pour les valeurs positives). Ce dernier scénario peut également être modélisé comme une régression unique utilisant un gamma gonflé zéro. De très bonnes explications ont été données sur une liste SAS il y a quelques années. Commencez ici si vous êtes intéressé et recherchez des suivis. texte du lien

Cela pourrait vous orienter dans une autre direction si la régression tronquée s'avère peu plausible.

B_Miner
la source

2

Comme d'autres l'ont mentionné ici, la principale application de la régression tobit est la censure des données. Tobit est largement utilisé conjointement avec l'analyse d'enveloppement de données (DEA) et par l'économiste. Dans DEA, le score d'efficacité se situe entre 0 et 1, ce qui signifie que la variable dépendante est censurée à 0 de gauche et 1 de droite. Par conséquent, l'application de la régression linéaire (OLS) n'est pas possible.

Tobit est une combinaison de probit et de régression tronquée. Des précautions doivent être prises lors de la différenciation de la censure et de la troncature:

Censure: lorsque les observations limites se trouvent dans l'échantillon. Les valeurs des variables dépendantes atteignent une limite à gauche ou à droite.
Troncature: observation dans laquelle une certaine plage de valeurs dépendantes n'est pas incluse dans l'étude. Par exemple, uniquement des valeurs positives. La troncature a une plus grande perte d'informations que la censure.

Tobit = Probit + Régression de troncature

Le modèle Tobit suppose la normalité comme le modèle probit.

Pas:

Le modèle probit décide si la variable dépendante est 0 ou 1. Si la variable dépendante est 1 alors de combien (en supposant la censure à 0) .
$\begin{matrix} (Discreet decision) & P (y > 0) = Φ (x^{^{'}} β) \end{matrix}$ $P(y>0) = Φ(x^{'} β) \tag{Discreet decision}$
$E(y│y>0)= x^{'} β+ σλ\big(\frac{x^{'} β}{σ}\big) \tag{Continuous decision}$

Le coefficient est le même pour le modèle de décision. est le terme de correction pour ajuster les valeurs censurées (zéros). $β$ $σλ\big(\frac{x^{'} β}{σ}\big)$

Veuillez également vérifier le modèle de Cragg où vous pouvez utiliser différents à chaque étape. $β$

Amar nayak
la source

Bienvenue sur le site, @Amarnayak. J'ai modifié votre message pour utiliser le formatage de type . Veuillez vous assurer qu'il indique toujours ce que vous voulez.

L A T E X

$\LaTeX$

gung - Rétablir Monica

Quelles sont les hypothèses pour appliquer un modèle de régression Tobit?

Réponses: