Mesurer la régression à la moyenne dans les home runs

11

Quiconque suit le baseball a probablement entendu parler de la performance de type MVP de nulle part de Jose Bautista de Toronto. Au cours des quatre années précédentes, il a réalisé environ 15 circuits par saison. L'année dernière, il a atteint 54, un nombre dépassé par seulement 12 joueurs dans l'histoire du baseball.

En 2010, il a été payé 2,4 millions et il demande à l'équipe 10,5 millions pour 2011. Ils offrent 7,6 millions. S'il peut répéter cela en 2011, il vaudra facilement l'un ou l'autre montant. Mais quelles sont les chances qu'il répète? Dans quelle mesure peut-on s'attendre à ce qu'il régresse jusqu'à la moyenne? Quelle part de sa performance peut-on espérer être due au hasard? Que pouvons-nous attendre de ses totaux ajustés de régression à la moyenne pour 2010? Comment est-ce que je le règle?

J'ai joué avec la base de données de Lahman Baseball et j'ai évincé une requête qui renvoie les totaux du home run pour tous les joueurs des cinq saisons précédentes qui ont eu au moins 50 frappeurs au bâton par saison.

Le tableau ressemble à ceci (remarquez Jose Bautista au rang 10)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

et le résultat complet (232 lignes) est disponible ici .

Je ne sais vraiment pas par où commencer. Est-ce que quelqu'un peut-il me montrer la bonne direction? Certaines théories pertinentes et les commandes R seraient particulièrement utiles.

Merci bien

Tommy

Remarque: l'exemple est un peu artificiel. Les home runs ne sont certainement pas le meilleur indicateur de la valeur d'un joueur, et les totaux des home runs ne tiennent pas compte du nombre variable d'occasions par saison qu'un frappeur a la chance de réaliser des home runs (apparitions de plaques). Cela ne reflète pas non plus le fait que certains joueurs évoluent dans des stades plus favorables et que les circuits moyens des ligues changent d'une année à l'autre. Etc. Etc. Si je peux saisir la théorie derrière la comptabilité de la régression à la moyenne, je peux l'utiliser sur des mesures plus appropriées que les RH.

TMOD
la source
2
Le baseball est la source d'exemples préférée de nombreux statisticiens américains, donc une recherche Google (/ Scholar) fera apparaître plusieurs articles pertinents, par exemple Morrison et Schmittlein (1981) jstor.org/stable/2630890 . Je laisse à quelqu'un plus familier avec le baseball et R de répondre à votre question.
onestop
1
Je vous suggère également de consulter le travail de JC Bradbury et son blog, Sabernomics, sabernomics.com/sabernomics . Son livre sur la mesure de la valeur des joueurs sera probablement révélateur des caractéristiques prédictives de la productivité future.
Andy W
2
Le problème tel qu'énoncé est un peu comme un problème aberrant , mais pas de la manière normale on pense aux valeurs aberrantes. Pour incorporer le résultat étonnant (c'est-à-dire la valeur aberrante), vous auriez besoin d'une "distribution d'échantillonnage" avec une queue lourde (le résultat de Jose bien au-dessus de 3 écarts-types de sa moyenne sur les données passées), donc cela peut aider à mieux ajuster vos données, et en tenir compte dans la prédiction.
probabilités du
Si vous considérez un petit raccourci grossier en plus de tous les commentaires plus sophistiqués qui apparaissent ici, il y a le Test de Dixon pour les valeurs aberrantes que vous pouvez effectuer sur un échantillon aussi petit que 4. Voir cee.vt.edu/ewr/environmental/teach/smprimer / valeur aberrante /…
rolando2

Réponses:

3

Je pense qu'il y a certainement un rétrécissement bayésien ou une correction préalable qui pourrait aider à la prédiction, mais vous voudrez peut-être également envisager une autre approche ...

Recherchez les joueurs de l'histoire, pas seulement ces dernières années, qui ont connu des saisons de cassure après quelques tournois majeurs (peut-être deux fois plus) et voyez comment ils se sont comportés l'année suivante. Il est possible que la probabilité de maintenir les performances soit le bon prédicteur.

Il existe différentes façons de résoudre ce problème, mais comme l'a indiqué mpiktas, vous aurez besoin de plus de données. Si vous voulez simplement traiter des données récentes, vous devrez regarder les statistiques globales de la ligue, les lanceurs contre lesquels il est confronté, c'est un problème complexe.

Et puis il n'y a qu'à considérer les propres données de Bautista. Oui, c'était sa meilleure année mais c'était aussi la première fois depuis 2007 qu'il avait plus de 350 ABs (569). Vous voudrez peut-être envisager de convertir l'augmentation en pourcentage des performances.

John
la source
3

Vous pouvez adapter un modèle à ces seules données et obtenir des prédictions qui tiennent compte de la régression vers la moyenne en utilisant des modèles mixtes (multiniveaux). Les prévisions de ces modèles expliquent la régression vers la moyenne. Même sans rien savoir du baseball, je ne trouve pas les résultats qui me sont terriblement crédibles, car, comme vous le dites, le modèle doit vraiment tenir compte d'autres facteurs, tels que l'apparence des plaques.

Je pense qu'un modèle à effets mixtes de Poisson conviendrait mieux qu'un modèle mixte linéaire car le nombre de home runs est un décompte. En regardant les données que vous avez fournies , un histogramme hrmontre qu'il est fortement biaisé positivement, ce qui suggère qu'un modèle mixte linéaire ne fonctionnera pas bien et comprend un assez grand nombre de zéros, avec ou sans heure de transformation logarithmique en premier.

Voici du code utilisant la lmerfonction du package lme4 . Ayant créé une variable ID pour identifier chaque joueur et remodelé les données au format `` long '' comme indiqué par mpiktas dans sa réponse, (je l'ai fait dans Stata car je ne suis pas bon en gestion de données dans R, mais vous pouvez le faire dans un feuille de calcul):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

Cela correspond à un modèle avec un lien de journal donnant une dépendance exponentielle du taux de réussite sur l'année, qui peut varier d'un joueur à l'autre. D'autres fonctions de liaison sont possibles, bien que la liaison d'identité ait donné une erreur en raison de valeurs ajustées négatives. Un lien sqrt a bien fonctionné cependant, et a un BIC et un AIC inférieurs à ceux du modèle avec le lien de journal, il peut donc être mieux adapté. Les prévisions pour le taux de réussite en 2011 sont sensibles à la fonction de lien choisie, en particulier pour des joueurs tels que Bautista dont le taux de réussite a beaucoup changé récemment.

J'ai bien peur de ne pas avoir réussi à obtenir de telles prédictions lme4. Je connais mieux Stata, ce qui permet d'obtenir très facilement des prédictions pour les observations avec des valeurs manquantes pour le résultat, bien que xtmelogit ne semble pas offrir de choix de fonction de lien autre que log, ce qui donne une prédiction de 50 pour Bautista. home runs en 2011. Comme je l'ai dit, je ne trouve pas cela terriblement crédible. Je serais reconnaissant à quelqu'un de montrer comment générer des prévisions pour 2011 à partir des lmermodèles ci-dessus.

Un modèle autorégressif tel que AR (1) pour les erreurs au niveau du joueur pourrait aussi être intéressant, mais je ne sais pas comment combiner une telle structure avec un modèle mixte de Poisson.

un arrêt
la source
en utilisant la fonction fondre de la refonte du package, la conversion au format long est une ligne dans R, fondre (données, id = 1: 2).
mpiktas
Une extension / alternative intéressante à cela consiste à adapter un modèle hiérarchique avec une distribution d'échantillonnage Possion avec un paramètre de taux échantillonné (1 taux par an), mais une distribution d'échantillonnage de Cauchy pour le paramètre de taux (au lieu d'un mélange normal ou normal). La distribution de Cauchy permettra à l' événement extrême de se produire (en échantillonnant un paramètre de taux élevé). Un cas intermédiaire (entre normal et Cauchy) est la distribution t. (Cauchy est plus facile à échantillonner car il peut utiliser la méthode CDF inverse).
probabilités
2

Vous avez besoin de données supplémentaires sur les joueurs et leurs caractéristiques dans l'intervalle de temps dont vous disposez pour les home-runs. Pour la première étape, ajoutez des caractéristiques variant dans le temps, telles que l'âge ou l'expérience des joueurs. Ensuite, vous pouvez utiliser HLM ou des modèles de données de panneau. Vous devrez préparer les données sous la forme:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

Le modèle le plus simple serait alors (la fonction lme vient du package nlme )

lme(HR~Experience,random=~Experience|Year,data=your_data)

Ce modèle reposera fortement sur l'hypothèse que le nombre de coups sûrs de chaque joueur ne dépend que de l'expérience permettant une certaine variabilité. Ce ne sera probablement pas très précis, mais vous aurez au moins une idée de la probabilité que les chiffres de Jose Bautista soient comparables à ceux d'un joueur moyen. Ce modèle peut être encore amélioré en ajoutant les caractéristiques des autres joueurs.

mpiktas
la source
Je ne dirais pas que @TMOD a besoin de plus de données, juste que les prédictions sont susceptibles d'être plus précises si @TMOD avait plus de données. La question contient suffisamment d'informations pour générer une prédiction.
probabilités
@probabilityislogic, oui, il y a suffisamment d'informations pour générer la prédiction, mais le modèle n'aura alors qu'une interception.
mpiktas
pas nécessairement, on pourrait adapter un modèle AR (1) ou AR (2) à ces données
probabilitéislogic
@probabilityislogic, ah oui, vous avez raison.
mpiktas
2

Vous voudrez peut-être consulter le blog du livre.

Tom Tango et les autres auteurs de "The Book: Playing the Percentages in Baseball" sont probablement les meilleures sources de sabermétrie. En particulier, ils aiment la régression à la moyenne. Ils ont mis au point un système de prévision conçu pour être le système acceptable le plus élémentaire (Marcel), et il repose presque exclusivement sur la régression vers la moyenne.

Du haut de ma tête, je suppose qu'une méthode serait d'utiliser une telle prévision pour estimer le vrai talent, puis de trouver une distribution appropriée autour de ce talent moyen. Une fois que vous avez cela, chaque apparence de plaque sera comme un essai de Bernoulli, donc la distribution binomiale pourrait vous mener jusqu'au bout.

Michael McGowan
la source
1

Pour info, de 2011 à 2014, il a frappé 43, 27, 28 et 35.

C'est assez proche de sa moyenne de 162 matchs de 32 (qui inclut bien sûr ces valeurs), et environ 1 SD sous les 54 en 2010.

On dirait une régression vers la moyenne en action: un groupe extrême construit en capitalisant sur des sujets bruyants (1 dans ce cas) s'écartant de leur groupe par hasard.

http://www.baseball-reference.com/players/b/bautijo02.shtml

Tim
la source