Existe-t-il une preuve mathématique formelle que la solution au problème des chars allemands est fonction uniquement des paramètres k (nombre d'échantillons observés) et m (valeur maximale parmi les échantillons observés)? En d'autres termes, peut-on prouver que la solution est indépendante des autres valeurs d'échantillon en plus de la valeur maximale?
mathematical-statistics
sufficient-statistics
Bogdan Alexandru
la source
la source
Réponses:
Probabilité
Les problèmes courants en théorie des probabilités se réfèrent à la probabilité des observations étant donné un certain modèle et étant donné les paramètres (appelons-les ) impliqués. Par exemple, les probabilités de situations spécifiques dans les jeux de cartes ou les jeux de dés sont souvent très simples.X1, x2, . . . , xn θ
Cependant, dans de nombreuses situations pratiques, nous avons affaire à une situation inverse ( statistiques inférentielles ). C'est-à-dire: l'observation est donnée et maintenant le modèle est inconnu , ou du moins nous ne connaissons pas certains paramètres .X1, x2, . . . , xk θθ
Dans ce type de problèmes, nous nous référons souvent à un terme appelé la probabilité des paramètres, , qui est un taux de croyance en un paramètre spécifique étant donné les observations . Ce terme est exprimé comme étant proportionnel à la probabilité des observations supposant qu'un paramètre de modèle serait hypothétiquement vrai.L ( θ ) θ X1, x2, . . Xk x1,x2,..xk θ L(θ,x1,x2,..xk)∝probability observations x1,x2,..xk given θ
Pour une valeur de paramètre donnée plus une certaine observation est probable (par rapport à la probabilité avec d'autres valeurs de paramètre), plus l'observation prend en charge ce paramètre particulier (ou théorie / hypothèse qui suppose ce paramètre) . Une probabilité (relative) élevée renforcera nos croyances sur cette valeur de paramètre (il y a beaucoup plus de philosophie à dire à ce sujet).θ x1,x2,..xn
Probabilité dans le problème des chars allemands
Maintenant, pour le problème des chars allemands, la fonction de vraisemblance pour un ensemble d'échantillons est:x1,x2,..xk
Que vous observiez des échantillons {1, 2, 10} ou des échantillons {8, 9, 10} ne devrait pas avoir d'importance lorsque les échantillons sont considérés à partir d'une distribution uniforme avec le paramètre . Les deux échantillons sont tout aussi probables avec une probabilité et en utilisant l'idée de vraisemblance, l'un des échantillons n'en dit pas plus sur le paramètre que l'autre échantillon.θ (θ3)−1 θ
Les valeurs élevées {8, 9, 10} peuvent vous faire penser / croire que devrait être plus élevé. Mais, c'est seulement la valeur {10} qui vous donne vraiment des informations pertinentes sur la probabilité de (la valeur 10 vous indique que sera dix ou plus, les autres valeurs 8 et 9 ne contribuent en rien à cette information ).θ θ θθ θ
Théorème de factorisation de Fisher Neyman
Ce théorème vous dit qu'une certaine statistique (c'est-à-dire une fonction des observations, comme la moyenne, la médiane ou comme dans le problème du réservoir allemand le maximum) est suffisante (contient toutes les informations) lorsque vous pouvez factoriser, dans la fonction de vraisemblance, les termes qui dépendent des autres observations , de sorte que ce facteur ne dépend pas à la fois du paramètre et (et la partie de la fonction de vraisemblance qui relie les données aux valeurs des paramètres hypothétiques ne dépend que de la statistique mais pas de l'ensemble des données / observations).T(x1,x2,…,xk) x1,x2,…,xk θ x1,x2,…,xk
Le cas du problème des chars allemands est simple. Vous pouvez voir ci-dessus que l'expression entière de la vraisemblance ci-dessus ne dépend déjà que de la statistique et le reste des valeurs n'a pas d'importance.max(x1,x2,..xk) x1,x2,..xk
Petit jeu comme exemple
Disons que nous jouons le jeu suivant à plusieurs reprises: est lui-même une variable aléatoire et dessinée avec une probabilité égale soit 100 ou 110. Ensuite, nous dessinons un échantillon .θ x1,x2,...,xk
Nous voulons choisir une stratégie pour deviner , basée sur les observés qui maximisent notre probabilité d'avoir la bonne estimation de .θ x1,x2,...,xk θ
La bonne stratégie sera de choisir 100 sauf si l'un des nombres de l'échantillon est> 100.
Nous pourrions être tentés de choisir la valeur de paramètre 110 déjà lorsque la plupart des ont tendance à être toutes des valeurs élevées proches de cent (mais aucune exactement au-dessus de cent), mais ce serait faux. La probabilité d'une telle observation sera plus grande lorsque la valeur réelle du paramètre est 100 que lorsqu'elle est 110. Donc, si nous supposons, dans une telle situation, 100 comme valeur du paramètre, nous serons moins susceptibles de faire une erreur (car le situation avec ces valeurs élevées proches de cent, mais toujours en dessous, se produit plus souvent dans le cas où la vraie valeur est 100 plutôt que dans le cas où la vraie valeur est 110).x1,x2,...,xk
la source
Vous n'avez pas présenté une formulation précise du «problème», donc ce n'est pas exactement clair ce que vous demandez à prouver. D'un point de vue bayésien, la probabilité postérieure dépend de toutes les données. Cependant, chaque observation d'un numéro de série particulier soutiendra le plus ce numéro. Autrement dit, étant donné toute observation , le rapport de cotes entre le postérieur et le précédent sera plus élevé pour l'hypothèse "le nombre réel de réservoirs est " que pour "le nombre réel de réservoirs est [nombre autre que ]". Ainsi, si nous commençons par un a priori uniforme, alors aura le postérieur le plus élevé après avoir vu cette observation.n n n n
Considérons un cas où nous avons le point de données et les hypothèses . Évidemment, le postérieur pour est nul. Et nos postérieurs pour seront plus grands que leurs antérieurs. La raison en est que dans le raisonnement bayésien, l'absence de preuve est une preuve d'absence. Chaque fois que nous avons une opportunité où nous aurions pu faire une observation qui aurait diminué notre probabilité, mais non, la probabilité augmente. Puisque nous aurions pu voir , ce qui aurait mis nos postérieurs pour à zéro, le fait que nous ne les ayons pas vu signifie que nous devrions augmenter nos postérieurs pour13 N=10,13,15 N=10 N=13,15 16 N = 13 , 15 N = 13 , 15 N = 13 14 , 15 , 16 , . . . N = 15 16 N = 13 N = 15 N = 13 N = 1316 N=13,15 N=13,15 . Mais notez que plus le nombre est petit, plus nous aurions pu voir de chiffres qui auraient exclu ce nombre. Pour , nous avons rejeté cette hypothèse après avoir vu . Mais pour , il aurait fallu au moins pour rejeter l'hypothèse. Étant donné que l'hypothèse est plus falsifiable que , le fait que nous n'ayons pas falsifié est davantage une preuve de , que de ne pas falsifier est une preuve de .N=13 14,15,16,... N=15 16 N=13 N=15 N=13 N=13 N=15 N=15
Ainsi, chaque fois que nous voyons un point de données, il remet à zéro le postérieur de tout ce qui se trouve en dessous et augmente le postérieur de tout le reste, avec de plus petits nombres obtenant le plus grand coup de pouce. Ainsi, le nombre qui obtient le plus gros coup de pouce global sera le plus petit nombre dont la partie postérieure n'a pas été mise à zéro, c'est-à-dire la valeur maximale des observations.
Les nombres inférieurs au maximum affectent l' ampleur de l' augmentation du maximum, mais cela n'affecte pas la tendance générale du maximum à obtenir le plus grand boost. Prenons l'exemple ci-dessus, où nous en avons déjà vu . Si le prochain chiffre que nous voyons est , quel effet cela aura-t-il? Cela aide plus que , mais les deux nombres ont déjà été rejetés, donc ce n'est pas pertinent. Cela aide plus que , mais déjà été aidés de plus de , donc cela n'affecte pas le nombre qui a été le plus aidé.13 5 5 6 13 15 13 15
la source