Quiconque suit le baseball a probablement entendu parler de la performance de type MVP de nulle part de Jose Bautista de Toronto. Au cours des quatre années précédentes, il a réalisé environ 15 circuits par saison. L'année dernière, il a atteint 54, un nombre dépassé par seulement 12 joueurs dans l'histoire du baseball.
En 2010, il a été payé 2,4 millions et il demande à l'équipe 10,5 millions pour 2011. Ils offrent 7,6 millions. S'il peut répéter cela en 2011, il vaudra facilement l'un ou l'autre montant. Mais quelles sont les chances qu'il répète? Dans quelle mesure peut-on s'attendre à ce qu'il régresse jusqu'à la moyenne? Quelle part de sa performance peut-on espérer être due au hasard? Que pouvons-nous attendre de ses totaux ajustés de régression à la moyenne pour 2010? Comment est-ce que je le règle?
J'ai joué avec la base de données de Lahman Baseball et j'ai évincé une requête qui renvoie les totaux du home run pour tous les joueurs des cinq saisons précédentes qui ont eu au moins 50 frappeurs au bâton par saison.
Le tableau ressemble à ceci (remarquez Jose Bautista au rang 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
et le résultat complet (232 lignes) est disponible ici .
Je ne sais vraiment pas par où commencer. Est-ce que quelqu'un peut-il me montrer la bonne direction? Certaines théories pertinentes et les commandes R seraient particulièrement utiles.
Merci bien
Tommy
Remarque: l'exemple est un peu artificiel. Les home runs ne sont certainement pas le meilleur indicateur de la valeur d'un joueur, et les totaux des home runs ne tiennent pas compte du nombre variable d'occasions par saison qu'un frappeur a la chance de réaliser des home runs (apparitions de plaques). Cela ne reflète pas non plus le fait que certains joueurs évoluent dans des stades plus favorables et que les circuits moyens des ligues changent d'une année à l'autre. Etc. Etc. Si je peux saisir la théorie derrière la comptabilité de la régression à la moyenne, je peux l'utiliser sur des mesures plus appropriées que les RH.
la source
Réponses:
Je pense qu'il y a certainement un rétrécissement bayésien ou une correction préalable qui pourrait aider à la prédiction, mais vous voudrez peut-être également envisager une autre approche ...
Recherchez les joueurs de l'histoire, pas seulement ces dernières années, qui ont connu des saisons de cassure après quelques tournois majeurs (peut-être deux fois plus) et voyez comment ils se sont comportés l'année suivante. Il est possible que la probabilité de maintenir les performances soit le bon prédicteur.
Il existe différentes façons de résoudre ce problème, mais comme l'a indiqué mpiktas, vous aurez besoin de plus de données. Si vous voulez simplement traiter des données récentes, vous devrez regarder les statistiques globales de la ligue, les lanceurs contre lesquels il est confronté, c'est un problème complexe.
Et puis il n'y a qu'à considérer les propres données de Bautista. Oui, c'était sa meilleure année mais c'était aussi la première fois depuis 2007 qu'il avait plus de 350 ABs (569). Vous voudrez peut-être envisager de convertir l'augmentation en pourcentage des performances.
la source
Vous pouvez adapter un modèle à ces seules données et obtenir des prédictions qui tiennent compte de la régression vers la moyenne en utilisant des modèles mixtes (multiniveaux). Les prévisions de ces modèles expliquent la régression vers la moyenne. Même sans rien savoir du baseball, je ne trouve pas les résultats qui me sont terriblement crédibles, car, comme vous le dites, le modèle doit vraiment tenir compte d'autres facteurs, tels que l'apparence des plaques.
Je pense qu'un modèle à effets mixtes de Poisson conviendrait mieux qu'un modèle mixte linéaire car le nombre de home runs est un décompte. En regardant les données que vous avez fournies , un histogramme
hr
montre qu'il est fortement biaisé positivement, ce qui suggère qu'un modèle mixte linéaire ne fonctionnera pas bien et comprend un assez grand nombre de zéros, avec ou sans heure de transformation logarithmique en premier.Voici du code utilisant la
lmer
fonction du package lme4 . Ayant créé une variable ID pour identifier chaque joueur et remodelé les données au format `` long '' comme indiqué par mpiktas dans sa réponse, (je l'ai fait dans Stata car je ne suis pas bon en gestion de données dans R, mais vous pouvez le faire dans un feuille de calcul):Cela correspond à un modèle avec un lien de journal donnant une dépendance exponentielle du taux de réussite sur l'année, qui peut varier d'un joueur à l'autre. D'autres fonctions de liaison sont possibles, bien que la liaison d'identité ait donné une erreur en raison de valeurs ajustées négatives. Un lien sqrt a bien fonctionné cependant, et a un BIC et un AIC inférieurs à ceux du modèle avec le lien de journal, il peut donc être mieux adapté. Les prévisions pour le taux de réussite en 2011 sont sensibles à la fonction de lien choisie, en particulier pour des joueurs tels que Bautista dont le taux de réussite a beaucoup changé récemment.
J'ai bien peur de ne pas avoir réussi à obtenir de telles prédictions
lme4
. Je connais mieux Stata, ce qui permet d'obtenir très facilement des prédictions pour les observations avec des valeurs manquantes pour le résultat, bien que xtmelogit ne semble pas offrir de choix de fonction de lien autre que log, ce qui donne une prédiction de 50 pour Bautista. home runs en 2011. Comme je l'ai dit, je ne trouve pas cela terriblement crédible. Je serais reconnaissant à quelqu'un de montrer comment générer des prévisions pour 2011 à partir deslmer
modèles ci-dessus.Un modèle autorégressif tel que AR (1) pour les erreurs au niveau du joueur pourrait aussi être intéressant, mais je ne sais pas comment combiner une telle structure avec un modèle mixte de Poisson.
la source
Vous avez besoin de données supplémentaires sur les joueurs et leurs caractéristiques dans l'intervalle de temps dont vous disposez pour les home-runs. Pour la première étape, ajoutez des caractéristiques variant dans le temps, telles que l'âge ou l'expérience des joueurs. Ensuite, vous pouvez utiliser HLM ou des modèles de données de panneau. Vous devrez préparer les données sous la forme:
Le modèle le plus simple serait alors (la fonction lme vient du package nlme )
Ce modèle reposera fortement sur l'hypothèse que le nombre de coups sûrs de chaque joueur ne dépend que de l'expérience permettant une certaine variabilité. Ce ne sera probablement pas très précis, mais vous aurez au moins une idée de la probabilité que les chiffres de Jose Bautista soient comparables à ceux d'un joueur moyen. Ce modèle peut être encore amélioré en ajoutant les caractéristiques des autres joueurs.
la source
Vous voudrez peut-être consulter le blog du livre.
Tom Tango et les autres auteurs de "The Book: Playing the Percentages in Baseball" sont probablement les meilleures sources de sabermétrie. En particulier, ils aiment la régression à la moyenne. Ils ont mis au point un système de prévision conçu pour être le système acceptable le plus élémentaire (Marcel), et il repose presque exclusivement sur la régression vers la moyenne.
Du haut de ma tête, je suppose qu'une méthode serait d'utiliser une telle prévision pour estimer le vrai talent, puis de trouver une distribution appropriée autour de ce talent moyen. Une fois que vous avez cela, chaque apparence de plaque sera comme un essai de Bernoulli, donc la distribution binomiale pourrait vous mener jusqu'au bout.
la source
Pour info, de 2011 à 2014, il a frappé 43, 27, 28 et 35.
C'est assez proche de sa moyenne de 162 matchs de 32 (qui inclut bien sûr ces valeurs), et environ 1 SD sous les 54 en 2010.
On dirait une régression vers la moyenne en action: un groupe extrême construit en capitalisant sur des sujets bruyants (1 dans ce cas) s'écartant de leur groupe par hasard.
http://www.baseball-reference.com/players/b/bautijo02.shtml
la source