cela ressemble à une question très naïve mais j'ai du mal à voir la réponse.
J'ai un ensemble de 30 valeurs. Indépendamment, j'ai obtenu une 31e valeur. L'hypothèse nulle est que la 31e valeur fait partie de la même distribution. L'alternative est que c'est différent. Je veux une sorte de valeur de p ou de mesure de vraisemblance.
Quelques réflexions que j'ai eues:
- Cela revient à vouloir faire un test t à deux échantillons - sauf que pour le deuxième échantillon, je n'ai qu'une seule valeur, et les 30 valeurs ne sont pas nécessairement distribuées normalement.
- Si au lieu de 30 mesures, j'avais 10000 mesures, le rang de la mesure unique pourrait fournir des informations utiles.
Comment puis-je calculer cette probabilité ou valeur p?
Merci! Yannick
hypothesis-testing
bayesian
t-test
Yannick Wurm
la source
la source
Réponses:
Dans le cas unimodal, l'inégalité Vysochanskij-Petunin peut vous donner un intervalle de prédiction approximatif. Voici le site wikipedia: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality
L'utilisation de entraînera un intervalle de prédiction d'environ 95%.λ = 3
Vous estimez donc la moyenne et l'écart-type de votre population et utilisez simplement la moyenne de l'échantillon plus ou moins 3 s comme intervalle.X¯ 3 s
Il y a quelques problèmes avec cette approche. Vous ne connaissez pas vraiment la moyenne ou l'écart type; vous utilisez des estimations. Et en général, vous n'aurez pas de distributions unimodales, ce qui signifie que vous devrez utiliser des versions spécialisées de l'inégalité de Chebyshev. Mais au moins, vous avez un point de départ.
la source
Correct. L'idée est un peu comme un test t avec une seule valeur. Comme la distribution n'est pas connue et que la normalité avec seulement 30 points de données peut être un peu difficile à avaler, cela nécessite une sorte de test non paramétrique.
Même avec 30 mesures, le classement peut être informatif.
Comme l'a souligné @whuber, vous voulez une sorte d'intervalle de prédiction. Pour le cas non paramétrique, ce que vous demandez, essentiellement, est le suivant: quelle est la probabilité qu'un point de données donné ait par hasard le rang que nous observons pour votre 31e mesure?
Cela peut être résolu par un simple test de permutation. Voici un exemple avec 15 valeurs et un roman (16e observation) qui est en fait plus grand que n'importe lequel des précédents:
Nous effectuons N permutations, où l'ordre des éléments dans la liste est mélangé, puis posons la question: quel est le rang pour la valeur du premier élément dans la liste (mélangée)?
L'exécution de N = 1 000 permutations nous donne 608 cas dans lesquels le rang du premier élément de la liste est égal ou meilleur au rang de la nouvelle valeur (en fait égal, car la nouvelle valeur est la meilleure). En exécutant à nouveau la simulation pour 1 000 permutations, nous obtenons 658 de ces cas, puis 663 ...
Si nous effectuons N = 1000000 permutations, nous obtenons 62825 cas dans lesquels le rang du premier élément de la liste est égal ou meilleur au rang de la nouvelle valeur (d'autres simulations donnent 62871 cas, puis 62840 ...). Si l'on prend le rapport entre les cas dans lesquels la condition est satisfaite et le nombre total de permutations, on obtient des nombres comme 0,062825, 0,062871, 0,06284 ...
Vous pouvez voir ces valeurs converger vers 1/16 = 0,0625 (6,25%), ce qui, comme le note @whuber, est la probabilité qu'une valeur donnée (sur 16) tirée au hasard ait le meilleur rang possible parmi elles.
Pour un nouvel ensemble de données, où la nouvelle valeur est la deuxième meilleure valeur (c.-à-d. Rang 2):
on obtient (pour N = 1 000 000 permutations): 125235, 124883 ... cas favorables qui, là encore, se rapproche de la probabilité qu'une valeur donnée (sur 16) tirée au hasard ait le deuxième meilleur rang possible parmi eux: 2/16 = 0,125 (12,5%).
la source