J'espère pouvoir poser cette question correctement. J'ai accès aux données play-by-play, c'est donc plus un problème avec la meilleure approche et la construction des données correctement.
Ce que je cherche à faire, c'est de calculer la probabilité de gagner un match dans la LNH compte tenu du score et du temps restant dans le règlement. Je pense que je pourrais utiliser une régression logistique, mais je ne sais pas à quoi devrait ressembler l'ensemble de données. Aurais-je plusieurs observations par match et pour chaque tranche de temps qui m'intéresse? Aurais-je une observation par match et des modèles séparés par tranche de temps? La régression logistique est-elle la bonne voie à suivre?
Toute aide que vous pourrez apporter sera très appréciée!
Meilleures salutations.
la source
Réponses:
Faites une régression logistique avec les covariables «temps de jeu» et «buts (équipe à domicile) - buts (équipe à l'extérieur)». Vous aurez besoin d'un effet d'interaction de ces termes, car une avance de 2 buts à la mi-temps aura un effet beaucoup plus petit qu'une avance de 2 buts avec seulement 1 minute à gauche. Votre réponse est "victoire (équipe à domicile)".
Ne vous contentez pas de supposer la linéarité pour cela, ajustez un modèle de coefficient variant en douceur pour l'effet des «buts (équipe à domicile) - buts (équipe à l'extérieur)», par exemple dans R, vous pouvez utiliser
mgcv
lagam
fonction de 'avec une formule de modèle commewin_home ~ s(time_remaining, by=lead_home)
. Faites-lead_home
en un facteur, de sorte que vous obtenez un effet différent detime_remaining
pour chaque valeur delead_home
.Je créerais plusieurs observations par jeu, une pour chaque tranche de temps qui vous intéresse.
la source
win_home
est constant au niveau du regroupement (c'est-à-dire pour toutes les tranches de temps pour une correspondance donnée, c'est soit 0 soit 1), y compris, par exemple, une interception aléatoire, pour les correspondances entraînera simplement d'énormes problèmes de séparation dans ce contexte.Je commencerais à simuler les données d'un modèle de jouet. Quelque chose comme:
Maintenant, nous avons quelque chose à jouer. Vous pouvez également utiliser les données brutes, mais je trouve que la simulation des données est très utile pour réfléchir.
Ensuite, je voudrais simplement tracer les données, c'est-à-dire le temps du jeu par rapport à la maison principale, avec l'échelle de couleurs correspondant à la probabilité observée de gagner.
Cela vous aidera à trouver le support de vos données et vous donnera une idée brute de ce à quoi ressemblent les probabilités.
la source
Consultez les statistiques nerds de Football Outsiders ainsi que le livre Mathletics pour vous inspirer.
Les gars de Football Outsiders font des prédictions de jeu basées sur chaque jeu dans un match de football.
Winston in Mathletics utilise également certaines techniques telles que la programmation dynamique.
Vous pouvez également envisager d'autres algorithmes tels que SVM.
la source