Existe-t-il des alternatives à la simulation pour déterminer la distribution du nombre d'événements à partir de deux processus de Poisson non homogènes dépendants?

8

Un modèle «à la pointe de la technologie» pour la répartition des buts marqués lors d'un match de football est celui de Dixon et Robinson (1998) «A Birth Process Model for Association Football Matches» qui explique deux phénomènes clés:

1) Plus de buts sont marqués à la fin des matches qu'au début (supposé être dû à la fatigue subie par les deux équipes)

2) Les taux de score dépendent de la ligne de score actuelle pour une multitude de raisons telles que les équipes avec une avance devenant complaisantes ou les équipes préférant jouer pour un match nul plutôt que de risquer une perte en tentant de gagner.

Le modèle suppose que les buts marqués par les équipes à domicile et à l'extérieur dans un match suivent des processus de Poisson non homogènes. Soit le temps écoulé dans un match, normalisé pour se situer entre et , le vecteur de longueur désigne les moments auxquels l'équipe à domicile a marqué des buts et le vecteur de longueur désigne les moments où l'équipe à l'extérieur a marqué des buts. La probabilité du match est alorst01xtHytA

L(tH,tA)=exp(01λ(t)dt)i=1xλ(tHi)x!exp(01μ(t)dt)j=1yμ(tAj)y!

où est le taux de notation de l'équipe à domicile au temps dépendant d'une combinaison de facteurs homogènes dans le temps (par exemple, capacité d'attaque de l'équipe à domicile contre capacité de défense de l'équipe à l'extérieur, avantage à domicile) et de facteurs inhomogènes dans le temps (par exemple ligne de score au moment ). De même pour .λ(t)ttμ(t)

Les deux processus sont dépendants car lorsqu'une équipe marque, la ligne de score change et que les taux de score dépendent eux-mêmes de la ligne de score.

La probabilité peut facilement être évaluée en effectuant l'intégration dans l'exposant numériquement. Par conséquent, il est simple de calculer les paramètres du modèle (capacités de l'équipe, avantage à domicile, effet du temps, paramètres de la ligne de score, etc.) via une probabilité maximale.

En termes de prédiction, des quantités évidentes d'intérêt sont:

  • P(x>y) : l'équipe à domicile gagne
  • P(x<y) : l'équipe à l'extérieur gagne
  • P(x=y) : dessiner
  • Probabilité de lignes de score particulières, par exempleP(x=1,y=0)
  • Probabilité de buts totaux dans le match, par exempleP((x+y)<2.5)

Pour calculer ces quantités (approximativement) à partir d'un ensemble de paramètres du modèle, nous pourrions utiliser des méthodes de Monte Carlo pour générer des correspondances en fonction de ces processus, puis calculer les fréquences de chaque score final. La simulation à partir des processus est relativement simple, en générant des objectifs à partir d'un processus de Poisson homogène enveloppant unique en conjonction avec un échantillonnage de rejet, puis en les distribuant à l'équipe à domicile ou à l'extérieur en conséquence.

L'inconvénient de cette approche est, évidemment, la charge de calcul de la simulation de Monte Carlo. Envisagez de tenter de faire des prédictions en temps réel pendant les matchs, dont plusieurs peuvent se dérouler simultanément, et cela devient rapidement un sujet de préoccupation.

Ma question, par conséquent, est de savoir s'il existe d'autres approches que nous pouvons envisager qui n'entraînent pas de coûts de calcul élevés (même si elles reposent sur une approximation qui sacrifie la précision pour faciliter le calcul)?


Pour plus de clarté, je ne recherche pas de suggestions (de base) sur la façon d'implémenter efficacement la simulation de Monte Carlo que j'ai déjà écrite en C multithread, utilise des nombres quasi-aléatoires qui ont été pré-générés à l'aide du déroulement et exploite l'amincissement par morceaux pour atteindre un taux d'acceptation très élevé. Si vous pensez qu'il y a encore de la place pour une augmentation spectaculaire des performances, alors je suis bien entendu, mais je recherche vraiment une approche fondamentalement différente!

M. Berk
la source

Réponses:

1

Voilà un problème intéressant. Je ne suis pas sûr d'avoir cessé tout ce que vous voulez dire, mais avez-vous pensé à reformuler certains de vos problèmes sous forme de tests d'hypothèse? Comme:

  • hypothèse nulle H0:x>y
  • hypothèse alternative H1:xy

puis pour effectuer un test de rapport de vraisemblance? Ensuite, la valeur de p extraite vous indique si H0 est rejeté compte tenu d'un certain niveau de signification.

La raison pour laquelle je mentionne cela est que l'exécution d'un test de rapport de vraisemblance est identique à la minimisation 2, ce qui peut être beaucoup plus rapide que l'intégration MC. Cependant l'intégrale à l'intérieur de l'exp peut nécessiter une intégration.

HTH

Monsieur Renard
la source
0

J'aborde d'abord 2 problèmes avec la question:

  1. Les facteurs dits non homogènes temporels empêchent le processus d'être Poisson, car le nombre de buts dans un certain intervalle de temps n'est pas indépendant du nombre de buts antérieur. En d'autres termes, le taux de transition dépend de l'état. Même l'article lié (P.7) appelle chaque processus un processus de naissance, ne se réduisant qu'à un processus de Poisson homogène lorsque l'intensité est constante.

  2. x!etdevrait être exclu de la probabilité, comme dans l'équ. (3.5) de l'article lié. Vraisemblablement, le PO pensait que l'Eq. (3.5) a donné la probabilité d'une correspondance avec un ensemble de temps interarrivaux non ordonnés, qui devraient être divisés par le nombre de permutations d'ensemble pour obtenir la probabilité d'un ensemble ordonné. Cela n'est pas nécessaire et aurait été erroné même si l'Eq. (3.5) étaient la probabilité d'un ensemble non ordonné, car les intensités dépendantes du temps entraîneraient des probabilités différentes pour chaque ordre.y!

Ensuite, pour répondre à la question de la distribution des lignes de score, je soulignerai que bien qu'elle ne soit pas mentionnée dans l'article lié, la ligne de score peut être modélisée comme un processus de naissance-décès :

px,y(t)=λx1,y(t)px1,y(t)+μx,y1(t)px,y1(t)(λx,y(t)+μx,y(t))px,y(t)
px,y(0)=δx,y
λ1,y(t)=0
μx,1(t)=0
La première équation est un équilibre de population ou une équation principale, dont la solution a été largement étudié, par exemple par Feller. Je ne crois pas que les solutions analytiques existent en général, alors que la solution numérique nécessite une troncature à un certain maximum et . Le maximum à utiliser dépend des probabilités à calculer à partir de . Par exemple, ne nécessite qu'un maximum , nécessite un maximum de 2, tandis que ,xypx,y(t)p1,0(t)x=1P(x+y<2.5)P(x>y)P(y<x)et nécessitent tous des maxima suffisamment grands pour que et soient négligeables.P(x=y)px>max,ypx,y>max

De nombreuses solutions numériques sont possibles, par exemple des méthodes de différences finies / éléments / spectrales. Si de grands maxima sont requis, l'approximation des équations de différence avec une équation différentielle en et continusxy peut être plus efficace.

Voici un code Mathematica que l'on pourrait utiliser comme modèle, avec les maxima, et à spécifier:λx,y(t)μx,y(t)

max=2;
\[Lambda][x_,y_,t_]=1;
\[Mu][x_,y_,t_]=1;

\[Lambda][-1,y_,t_]=0;
\[Mu][x_,-1,t_]=0;

DSolve[Flatten[Table[{
D[p[x,y,t],t]==\[Lambda][x-1,y,t]p[x-1,y,t]+\[Mu][x,y-1,t]p[x,y-1,t]
             -(\[Lambda][x,y,t]+\[Mu][x,y,t])p[x,y,t],
p[x,y,0]==DiscreteDelta[x,y]},{x,0,max-1},{y,0,max-1}]],
Flatten[Table[p[x,y,t],{x,0,max-1},{y,0,max-1}]],t]

{{p(0,0,t)e2t,p(0,1,t)e2tt,p(1,0,t)e2tt,p(1,1,t)e2tt2}}
obsolète
la source