Ma connaissance (très basique) du modèle de régression Tobit ne vient pas d'une classe, comme je le préférerais. Au lieu de cela, j'ai récupéré des informations ici et là grâce à plusieurs recherches sur Internet. Ma meilleure estimation des hypothèses de régression tronquée est qu'elles sont très similaires aux hypothèses des moindres carrés ordinaires (OLS). Je n'ai aucune idée si c'est correct, cependant.
D'où ma question: quelles sont les hypothèses à vérifier lors de la régression Tobit?
Remarque: La forme originale de cette question faisait référence à une régression tronquée, qui n'était pas le modèle que j'utilisais ou sur lequel je posais des questions. J'ai corrigé la question.
regression
assumptions
Firefeather
la source
la source
Réponses:
Si nous optons pour une réponse simple, l'extrait du livre Wooldridge (page 533) est très approprié:
... à la fois l'hétéroskédasticité et la non-normalité font que l'estimateur Tobit n'est pas cohérent pour . Cette incohérence se produit parce que la densité dérivée de donnée dépend essentiellement de . Cette non-robustesse de l'estimateur Tobit montre que la censure des données peut être très coûteuse: en l'absence de censure ( ) pourrait être estimé de manière cohérente sous [ou même ].β^ β y x y∗|x∼Normal(xβ,σ2) y=y∗ β E(u|x)=0 E(x′u)=0
Les notations de cet extrait proviennent du modèle Tobit:
Pour résumer la différence entre les moindres carrés et la régression Tobit est l'hypothèse inhérente de normalité dans ce dernier.
De plus, j'ai toujours pensé que l' article original d'Amemyia était assez agréable pour exposer les fondements théoriques de la régression Tobit.
la source
Pour faire écho au commentaire d'Aniko: l'hypothèse principale est l'existence de la troncature. Ce n'est pas la même hypothèse que les deux autres possibilités que votre article me suggère: délimitation et sélection de l'échantillon.
Si vous avez une variable dépendante fondamentalement limitée plutôt qu'une variable tronquée, vous voudrez peut-être passer à un cadre de modèle linéaire généralisé avec l'une des distributions (moins souvent choisies) pour Y, par exemple log-normal, gamma, exponentielle, etc. qui respectent cela borne inférieure.
Vous pouvez également vous demander si vous pensez que le processus qui génère les observations nulles dans votre modèle est le même que celui qui génère les valeurs strictement positives - les prix dans votre application, je pense. Si ce n'est pas le cas, alors quelque chose de la classe des modèles de sélection d'échantillons (par exemple les modèles Heckman) pourrait être approprié. Dans ce cas, vous seriez dans la situation de spécifier un modèle de volonté de payer n'importe quel prix, et un autre modèle de prix que vos sujets paieraient s'ils voulaient payer quelque chose.
En bref, vous souhaiterez probablement examiner la différence entre l'hypothèse de variables dépendantes tronquées, censurées, limitées et d'échantillonnage sélectionnées. Lequel vous voulez proviendra des détails de votre demande. Une fois que cette première hypothèse la plus importante est faite, vous pouvez plus facilement déterminer si vous aimez les hypothèses spécifiques de n'importe quel modèle dans la classe choisie. Certains modèles de sélection d'échantillons ont des hypothèses qui sont assez difficiles à vérifier ...
la source
@Firefeather: Vos données contiennent-elles (et ne peuvent-elles vraiment contenir) que des valeurs positives? Si tel est le cas, modélisez-le à l'aide d'un modèle linéaire généralisé avec erreur gamma et lien de journal. S'il contient des zéros, vous pouvez alors envisager une étape en deux étapes (régression logistique pour la probabilité de zéro et régression gamma pour les valeurs positives). Ce dernier scénario peut également être modélisé comme une régression unique utilisant un gamma gonflé zéro. De très bonnes explications ont été données sur une liste SAS il y a quelques années. Commencez ici si vous êtes intéressé et recherchez des suivis. texte du lien
Cela pourrait vous orienter dans une autre direction si la régression tronquée s'avère peu plausible.
la source
Comme d'autres l'ont mentionné ici, la principale application de la régression tobit est la censure des données. Tobit est largement utilisé conjointement avec l'analyse d'enveloppement de données (DEA) et par l'économiste. Dans DEA, le score d'efficacité se situe entre 0 et 1, ce qui signifie que la variable dépendante est censurée à 0 de gauche et 1 de droite. Par conséquent, l'application de la régression linéaire (OLS) n'est pas possible.
Tobit est une combinaison de probit et de régression tronquée. Des précautions doivent être prises lors de la différenciation de la censure et de la troncature:
Tobit = Probit + Régression de troncature
Le modèle Tobit suppose la normalité comme le modèle probit.
Pas:
Le modèle probit décide si la variable dépendante est 0 ou 1. Si la variable dépendante est 1 alors de combien (en supposant la censure à 0) .
Le coefficient est le même pour le modèle de décision. est le terme de correction pour ajuster les valeurs censurées (zéros).β σλ(x′βσ)
Veuillez également vérifier le modèle de Cragg où vous pouvez utiliser différents à chaque étape.β
la source