Cross poster ma question de mathoverflow pour trouver une aide spécifique aux statistiques.
J'étudie un processus physique générant des données qui se projettent bien en deux dimensions avec des valeurs non négatives. Chaque processus a une piste (projetée) de points - - voir l'image ci-dessous.y
Les pistes d'échantillonnage sont bleues, une piste gênante a été dessinée à la main en vert et une zone de préoccupation dessinée en rouge:
Chaque piste est le résultat d'une expérience indépendante. Vingt millions d'expériences ont été menées sur plusieurs années, mais parmi celles-ci, seules deux mille présentent la caractéristique que nous traçons comme une piste. Nous ne sommes concernés que par les expériences qui génèrent une piste, donc notre ensemble de données est (environ) deux mille pistes.
Comment pouvons-nous calculer la probabilité qu'une piste arbitraire entre dans la région concernée?
Il n'est pas possible de mener des expériences assez rapidement pour voir à quelle fréquence sont générées les pistes qui pénètrent dans la région concernée, nous devons donc extrapoler à partir des données disponibles.
Nous avons ajusté par exemple les valeurs de données , mais cela ne gère pas suffisamment les données telles que la piste verte - il semble nécessaire d'avoir un modèle englobant les deux dimensions.y ≥ 200
Nous avons adapté la distance minimale entre chaque piste et la région concernée, mais nous ne sommes pas convaincus que cela donne un résultat justifiable.
1) Existe-t-il un moyen connu d'adapter une distribution à ce type de données pour l'extrapolation?
-ou-
2) Existe-t-il un moyen évident d'utiliser ces données pour créer un modèle de génération de pistes? Par exemple, utilisez l'analyse des composants principaux sur les pistes comme points dans un grand espace, puis ajustez une distribution (Pearson?) Aux pistes projetées sur ces composants.
la source
Réponses:
Il semble que vous souhaitiez simuler la formation de pistes, puis effectuer une simulation Monte Carlo pour voir combien de pistes tombent dans la région rouge. Pour ce faire, je voudrais d'abord convertir les lignes en deux fonctions, l'une donnant la direction et l'autre la distance d'un point à l'autre sur cette piste. Vous pouvez maintenant étudier les distributions de probabilité associées à ces deux fonctions. Par exemple, vous pouvez constater que la distance parcourue suit une distribution spécifique (veillez à ce que la distribution ne change pas avec le temps). Si l'une ou l'autre variable change au fil du temps, vous devez vous plonger dans l'analyse des séries temporelles (pas mon domaine, désolé).
Une autre pensée qui vient à l'esprit est que, puisque la direction du mouvement dans xy change progressivement dans la plupart des pistes, vous pourriez mieux examiner le changement de direction en fonction du temps pour les pistes.
Vous devrez également estimer la probabilité qu'une piste commence à une coordonnée xy donnée avec une direction donnée. Vous voudrez peut-être envisager d'utiliser l'estimation de la densité du noyau pour lisser le PDF résultant ou, s'il semble suivre une distribution pour laquelle il existe un modèle analytique, la maximisation des attentes pourrait être utilisée pour ajuster cette distribution aux données.
La simulation de Monte Carlo tirerait ensuite des échantillons aléatoires de ces distributions pour simuler les formes des pistes. Ensuite, vous devez simuler un grand nombre de pistes et voir à quelle fréquence ces pistes traversent la région rouge. Cela pourrait être des milliers ou des millions de pistes, vous devrez expérimenter pour voir quand la distribution cesse de changer lorsque vous ajoutez plus de pistes.
la source