Je voudrais évaluer plusieurs modèles différents qui fournissent des prédictions de comportement à un niveau mensuel. Les données sont équilibrées, et 100 000 et 12. Le résultat est d'assister à un concert au cours d'un mois donné, il est donc nul pour ~ 80% des gens au cours d'un mois, mais il y a une longue queue droite d'utilisateurs lourds. Les prédictions que j'ai ne semblent pas respecter la nature de dénombrement du résultat: les concerts fractionnés sont répandus.
Je ne connais rien aux modèles. Je n'observe que 6 prévisions de boîte noire différentes pour chaque personne par mois. J'ai une année supplémentaire de données que les constructeurs de modèles n'avaient pas pour l'estimation (bien que les spectateurs restent les mêmes), et je voudrais évaluer où chacun se comporte bien (en termes d'exactitude et de précision). Par exemple, certains modèles prédisent-ils bien pour les amateurs de concerts fréquents, mais échouent-ils pour les patates de canapé? La prévision pour janvier est-elle meilleure que la prévision pour décembre? Alternativement, il serait bon de savoir que les prédictions me permettent de classer correctement les gens en termes de chiffres réels, même si l'ampleur exacte ne peut être fiable.
Ma première pensée a été d'exécuter des régressions à effets fixes de réels sur des variables indicatrices prédites et temporelles et de regarder les RMSE ou pour chaque modèle. Mais cela ne répond pas à la question de savoir où chaque modèle fonctionne bien ou si les différences sont significatives (sauf si je bootstrap le RMSE). La distribution des résultats m'inquiète également avec cette approche.
Ma deuxième idée était de regrouper le résultat en 0, 1-3 et 3+, et de calculer la matrice de confusion, mais cela ignore la dimension temporelle, à moins que j'en fasse 12. C'est aussi assez grossier.
Je connais les commandes Stata concord
de TJ Steichen et NJ Cox - qui ont l' by()
option, mais cela nécessiterait de regrouper les données en totaux annuels. Cela calcule l' indice de corrélation de concordance de Lin avec des intervalles de confiance, entre autres statistiques utiles. CCC varie de -1 à 1, avec un accord parfait à 1.
Il y a aussi le de Harrell (calculé
par R. Newson), qui a l' option, mais je ne suis pas sûr que cela me permettrait de traiter les données du panel. Cela vous donne des intervalles de confiance. Le c de Harrell est la généralisation de l'aire sous une courbe ROC (AUC) pour un résultat continu. C'est la proportion de toutes les paires qui peut être ordonnée de sorte que le sujet avec la prédiction la plus élevée ait réellement le résultat le plus élevé. Donc pour les prédictions aléatoires c = 1 pour un modèle parfaitement discriminant. Voir le livre de Harrell , p.493somersd
cluster
Comment aborderiez-vous ce problème? Recommanderiez-vous de calculer des statistiques comme MAPE qui sont courantes dans les prévisions?
Choses utiles trouvées jusqu'à présent:
- Diapositives sur une version à mesures répétées du coefficient de corrélation de concordance de Lin
la source
Réponses:
Pour évaluer la capacité prédictive d'une prévision semi-markovienne, plusieurs méthodes sont disponibles en fonction de la taille de l'échantillon et d'autres informations disponibles.
Pour évaluer n'importe quel modèle prédictif / prévisionnel, vous avez la possibilité d'une validation croisée (spécifiquement la validation croisée d'échantillons fractionnés ou non), où un modèle est estimé dans un échantillon "d'apprentissage" et l'incertitude du modèle évaluée dans une "validation" échantillon. Selon la distribution du résultat, un certain nombre de mesures sont disponibles par lesquelles vous pouvez sélectionner un modèle parmi un panel de modèles éligibles. Pour les mesures générales non paramétriques de sélection de modèle, les gens aiment vraiment l'AIC et le BIC, en particulier ce dernier.
Les statistiques CCC et c sont utilisées pour évaluer les prédictions transversales binaires comme les tests / tests, vous devrez donc les exclure si vous prédisez, par exemple, l'IMC ou le QI. Ils mesurent l'étalonnage (comme le test Hosmer Lemeshow) et ce qu'on appelle la capacité de stratification du risque. Aucune connexion intuitive à des résultats continus là-bas, du moins pas pour autant que je sache.
RMSE, d'autre part, est utilisé pour évaluer les prédictions continues (sauf le cas de la prédiction des risques dans lequel RMSE est appelé score Brier, un outil d'évaluation de modèle assez archaïque et obsolète). C'est un excellent outil et est probablement utilisé pour calibrer plus de 80% des modèles prédictifs que nous rencontrons quotidiennement (prévisions météorologiques, cotes énergétiques, MPG sur les véhicules, etc.).
Une mise en garde dans la validation ou le rééchantillonnage d'échantillons fractionnés pour évaluer les modèles de prévision est que vous ne pouvez être intéressé par les résultats futurs que lorsque votre échantillon vous laisse prédire les résultats passés. Ne fais pas ça! Il ne reflète pas l'application des modèles et peut grandement influencer la sélection de manière négative. Faites défiler toutes les informations disponibles et prédisez les résultats futurs non observés dans tous les cas disponibles.
À peu près n'importe quel livre de modèles linéaires appliqués couvrira la prédiction, le RMSE et les nuances de la formation et de la validation des modèles. Un bon début serait que Kutner, Nachtsheim, Neter, Li, considèrent également "Time Series Analysis" de Diggle, Diggle Heagerty Zeger Li, "Longitudinal Data Analysis", et potentiellement "Regression Modeling Strategies" de Harrell.
la source