Que faire si les probabilités ne sont pas égales dans la "règle .632?"

Cette question est dérivée de celle-ci à propos de la "règle .632". J'écris avec une référence particulière à la réponse / notation de user603 dans la mesure où cela simplifie les choses.

Cette réponse commence par un échantillon de taille avec remplacement, à partir de éléments distincts dans la collection (appelez-le) N. La probabilité que l' échantillon soit différent d'un élément particulier de N est alors $n,$ $n$ $i^{th}$ $s_i$ $m$ $(1 - 1/n).$

Dans cette réponse, tous les éléments de N ont une chance égale d'être tirés au hasard.

Ma question est la suivante: supposons plutôt que dans la question ci-dessus les éléments à dessiner soient tels qu'ils soient normalement distribués. Autrement dit, nous subdivisons la courbe normale standard de à en (disons) 100 sous-intervalles de longueur égale. Chacun des 100 éléments de N a une probabilité d'être dessinée qui est égale à la zone sous-tendue par la courbe dans son intervalle respectif. $Z = -4$ $Z = 4$

Ma pensée était la suivante:

Le raisonnement est similaire à celui de la réponse liée, je pense. La probabilité que , avec un élément de N, soit dans laquelle est la probabilité de dessiner $s_i \ne m$ $m$ $P(s_i \neq m) = (1 - F_i)$ $F_i$ $s_i.$

La probabilité qu'un élément particulier m soit dans l'échantillon S de taille n est

P (m \in S) = 1 - P (m \notin S) = 1 - \prod_{1}^{n} P (s_{i} \neq m)

$P(m \in S) = 1 - P(m \notin S) = 1 - \prod_1^n P(s_i \neq m)$

= 1 - \prod_{1}^{n} (1 - F_{i}) .

$= 1 - \prod_1^n(1 - F_i).$

Un calcul semble montrer qu'à mesure que la longueur des sous-intervalles devient petite, la réponse converge vers le même nombre que dans le premier cas (probabilités de toutes égales). $s_i$

Cela semble contre-intuitif (pour moi) car la construction semble inclure des éléments de N qui sont rares, donc je m'attendrais à un nombre inférieur à 0,632.

Aussi, si cela est correct, je suppose que nous aurions

lim_{n \to \infty} \prod_{1}^{n} (1 - F_{i}) = lim (1 - 1 / n)^{n} = 1 / e,

$\lim_{n \to \infty} \prod_1^n(1 - F_i) =\lim (1- 1/n)^n = 1/e,$

que je ne sais pas encore être vrai ou faux.

Edit: Si c'est vrai, cela en généraliserait probablement.

Merci pour toutes informations.

probability sampling daniel
la source

Je viens de poser des questions sur la dernière équation de Mathematics SE (question 791114) parce que je suis également intéressé par la façon dont elle se généralise, le cas échéant.

daniel

... et la réponse courte est que la dernière égalité est correcte pour les PDF bien comportés, donc la réponse à la question est que la règle .632 est valable pour une grande variété de distributions sous-jacentes.

daniel

Puis-je retirer la réponse de quelqu'un d'autre sur un autre site et la publier ici comme la mienne? C'est pourquoi j'ai publié le bref commentaire. Peut-être existe-t-il une façon acceptée de procéder, si c'est le cas, je suis d'accord.

daniel

bien sûr, vous pouvez, il suffit de mentionner la source à un moment donné :)

Firebug

@Firebug: pouvez-vous pointer vers une instance où cela est fait pour que je puisse voir ce que vous voulez dire? Merci.

daniel

Réponses:

La question porte sur le comportement limitatif des

\begin{matrix} (1) & = 1 - \prod_{i = 1}^{n} (1 - F_{i}) \end{matrix}

$= 1 - \prod_{i=1}^n(1 - F_i)\tag{1}$

lorsque croît et que uniformément de telle sorte que (a) tous sont non négatifs et (b) ils se résument à l'unité. (Ceux-ci découlent de la construction du et des axiomes de probabilité.) $n$ $F_i$ $F_i$

Par définition, ce produit est l'exponentielle de son logarithme:

\prod_{i = 1}^{n} (1 - F_{i}) = \exp (\sum_{i = 1}^{n} \log (1 - F_{i})) .

$\prod_{i=1}^n(1 - F_i) = \exp\left(\sum_{i=1}^n\log\left(1-F_i\right)\right).$

Le théorème de Taylor (avec la forme de Lagrange du reste) , appliqué à , établit que $\log$

\log (1 - F_{i}) = - F_{i} - \frac{1}{2} ϕ_{i}^{2} \geq - F_{i} - \frac{1}{2} F_{i}^{2}

$\log\left(1-F_i\right) = -F_i - \frac{1}{2}\phi_i^2 \ge -F_i - \frac{1}{2}F_i^2$

pour certains dans l'intervalle . En d'autres termes, ces logarithmes sont égaux à jusqu'à des termes qui sont au plus fois . Mais lorsque est assez grand pour garantir que tous les sont plus petits que certains donnés (une condition assurée par le retrait uniforme des ), alors (b) implique et donc $\phi_i$ $[0, F_i]$ $-F_i$ $1/2$ $F_i^2$ $n$ $F_i$ $\epsilon\gt 0$ $F_i$ $n\epsilon \gt \sum F_i = 1$

\sum_{i = 1}^{n} F_{i}^{2} \leq \sum_{i = 1}^{n} ϵ^{2} < \sum_{i = 1}^{n} {(\frac{1}{n})}^{2} = \frac{1}{n} .

$\sum_{i=1}^n F_i^2 \le \sum_{i=1}^n \epsilon^2 \lt \sum_{i=1}^n \left(\frac{1}{n}\right)^2 =\frac{1}{n}.$

par conséquent

- 1 = - \sum_{i = 1}^{n} F_{i} \geq \sum_{i = 1}^{n} \log (1 - F_{i}) \geq - \sum_{i = 1}^{n} F_{i} - \frac{1}{2} \frac{1}{n} = - 1 - \frac{1}{2 n}

$-1 = -\sum_{i=1}^n F_i \ge \sum_{i=1}^n\log\left(1-F_i\right) \ge -\sum_{i=1}^n F_i - \frac{1}{2}\frac{1}{n} = -1 - \frac{1}{2n}$

serre le logarithme entre deux séquences convergeant vers . Puisque est continu, le produit converge vers l'exponentielle de cette limite, . par conséquent $-1$ $\exp$ $\prod_{i=1}^n(1 - F_i)$ $\exp(-1)$

lim_{n \to \infty} (1 - \prod_{i = 1}^{n} (1 - F_{i})) = 1 - \exp (- 1) \approx 0.632,

$\lim_{n\to\infty} \left(1 - \prod_{i=1}^n(1 - F_i)\right) = 1 - \exp(-1) \approx 0.632,$

QED .

Un examen plus approfondi de cette analyse établit que l'erreur dans cette approximation (qui sera toujours une borne inférieure ) n'est pas plus grande que Par exemple, la division d'une distribution normale standard en tranches entre et produit un maximum près du mode , où il sera approximativement égal à l'aire d'un rectangle, . La limite précédente établit que la valeur de la formule sera à de sa valeur limite. L'erreur réelle est un ordre de grandeur moins,

(\exp ((n / 2) max (F_{i}^{2})) - 1) \exp (- 1) .

$\left(\exp\left((n/2)\max(F_i^2)\right) - 1\right)\exp(-1).$

n = 400

$n=400$

- 4

$-4$

4

$4$

F_{i}

$F_i$

0

$0$

\exp (- 1 / 2) / 50 \approx 0.012

$\exp(-1/2)/50 \approx 0.012$

(1)

$(1)$

0.011

$0.011$

0.001041

$0.001041$ . Voici le calcul dans R(auquel nous pouvons faire confiance car aucun des n'est vraiment petit par rapport à ):

f_{i}

$f_i$

1

$1$

f <- diff(pnorm(seq(-4, 4, length.out=401))) # The normal "slices".
f <- f / sum(f)                              # Make them sum to unity.
exp(-1) - prod(1 - f)                        # Compute the error.

En effet, 1 - prod(1-f)est alors que est . $0.6331615\ldots$ $1-\exp(-1)$ $0.6321206\ldots$

whuber
la source

L'analyse des erreurs est un aspect très utile de cette réponse.

daniel