Comment comparer l'exactitude de deux modèles différents en utilisant la signification statistique

10

Je travaille sur la prédiction de séries chronologiques. J'ai deux ensembles de données et . J'ai trois modèles de prédiction: . Tous ces modèles sont entraînés à l'aide d'échantillons dans l'ensemble de données , et leurs performances sont mesurées à l'aide des échantillons dans l'ensemble de données . Disons que les mesures de performances sont MSE (ou toute autre chose). Le MSE de ces modèles lorsqu'ils sont mesurés pour l'ensemble de données sont et . Comment puis-je tester que l'amélioration d'un modèle par rapport à un autre est statistiquement significative.D1={x1,x2,....xn}D2={xn+1,xn+2,xn+3,....,xn+k}M1,M2,M3D1D2D2MSE1,MSE2,MSE3

Par exemple, supposons que , , et que le nombre total d'échantillons dans l'ensemble de données sur la base duquel ces MSE sont calculés est de 2000. Comment puis-je tester que , et sont significativement différents . J'apprécierais grandement si quelqu'un pouvait m'aider dans ce problème.MSE1=200MSE2=205MSE3=210D2MSE1MSE2MSE3

Mashud
la source

Réponses:

1

L'un des articles liés ci-dessus fait référence à l'utilisation d'un test de rapport de vraisemblance, bien que vos modèles doivent être imbriqués les uns dans les autres pour que cela fonctionne (c'est-à-dire que tous les paramètres dans l'un des modèles doivent être présents dans le modèle contre lequel vous le testez) .

RMSE est clairement une mesure de l'adéquation du modèle avec les données. Cependant, le rapport de vraisemblance l'est aussi. La probabilité pour une personne donnée, dit Mme Chen, est la probabilité qu'une personne avec tous ses paramètres ait le résultat qu'elle a eu. La probabilité conjointe de l'ensemble de données est la probabilité de Mme Chen * la probabilité de Mme Gundersen * la probabilité de Mme Johnson * ... etc.

L'ajout d'une covariable, ou d'un nombre quelconque de covariables, ne peut pas vraiment aggraver le rapport de vraisemblance, je ne pense pas. Mais cela peut améliorer le rapport de vraisemblance d'un montant non significatif. Les modèles qui correspondent mieux auront une probabilité plus élevée. Vous pouvez tester formellement si le modèle A correspond mieux au modèle B. Vous devriez avoir une sorte de fonction de test LR disponible dans n'importe quel logiciel que vous utilisez, mais fondamentalement, la statistique de test LR est -2 * la différence des journaux des probabilités, et elle est distribuée khi-carré avec df = la différence dans le nombre des paramètres.

De plus, comparer l'AIC ou le BIC des deux modèles et trouver le plus bas est également acceptable. AIC et BIC sont essentiellement les logarithmes du risque pénalisés pour le nombre de paramètres.

Je ne suis pas sûr d'utiliser un test t pour les RMSE, et je m'y appuierais à moins que vous ne puissiez trouver un travail théorique qui a été fait dans le domaine. Fondamentalement, savez-vous comment les valeurs de RMSE sont distribuées de manière asymptotique? Je ne suis pas sûr. Quelques discussions supplémentaires ici:

http://www.stata.com/statalist/archive/2012-11/index.html#01017

Weiwen Ng
la source
0

Cette réponse ne tient pas compte du fait que vos données forment une série chronologique mais je ne pense pas que ce serait un problème.

Lors de l'utilisation de RMSE, cet article suggère d'utiliser un test t: tester la signification de RMSE des modèles

Vous pouvez également utiliser la corrélation de Pearson pour évaluer votre ajustement. Selon cet article, vous pouvez utiliser le test t de Wolfe pour cela: signification statistique de l'augmentation de la corrélation

J'essaie actuellement d'en apprendre davantage sur le même problème. J'apprécierais moi-même des réponses plus détaillées.

buechel
la source
0

Il y a deux façons principales de le faire, mais d'abord je conteste l'idée que vous ne souhaitiez en choisir qu'une seule. Très probablement, un modèle d'ensemble des trois modèles distincts permettra d'obtenir la meilleure performance de tous.

La principale façon, peut-être la meilleure, de le faire est d'utiliser le modèle pour obtenir des intervalles de confiance autour de la métrique d'évaluation. Cela se fait généralement via bootstrapping ( ou Poisson bootstrap ).

L'autre façon est d'utiliser un test statistique. Chaque test fait des hypothèses différentes, et celles-ci sont souvent utilisées pour comparer une valeur ou un échantillon tiré d'une distribution plutôt qu'une évaluation ponctuelle. Bon nombre de ces tests statistiques nécessitent officiellement l'indépendance, ce que vous n'avez généralement pas lorsque vous comparez plusieurs résultats du même modèle ou plusieurs modèles sur des séries chronologiques.

Avec la prédiction de séries temporelles en particulier, vous devriez effectuer des backtests avec validation croisée et évaluer les erreurs de train et de test à chaque fois ( exemple ). Lorsque vous effectuez cette opération, je doute que vos modèles fonctionnent tous de manière si similaire que vous avez besoin d'un test statistique pour les différencier; très probablement, vous verrez de grandes différences.

Notez également que les mesures d'évaluation historiques (comparant les chiffres réels aux prévisions) à elles seules sont insuffisantes pour l'évaluation des prévisions. Étant donné deux prédictions qui correspondent parfaitement aux données historiques connues, mais l'une correspond également aux croyances antérieures sur l'avenir et l'autre viole clairement (par exemple, si l'une disparaît à zéro mais que vous avez des raisons de croire que cela ne peut pas se produire), vous préférerez la prédiction qui correspond mieux à votre précédent.

Michael Brundage
la source