Cette valeur unique correspond-elle à cette distribution?

10

cela ressemble à une question très naïve mais j'ai du mal à voir la réponse.

J'ai un ensemble de 30 valeurs. Indépendamment, j'ai obtenu une 31e valeur. L'hypothèse nulle est que la 31e valeur fait partie de la même distribution. L'alternative est que c'est différent. Je veux une sorte de valeur de p ou de mesure de vraisemblance.

Quelques réflexions que j'ai eues:

  • Cela revient à vouloir faire un test t à deux échantillons - sauf que pour le deuxième échantillon, je n'ai qu'une seule valeur, et les 30 valeurs ne sont pas nécessairement distribuées normalement.
  • Si au lieu de 30 mesures, j'avais 10000 mesures, le rang de la mesure unique pourrait fournir des informations utiles.

Comment puis-je calculer cette probabilité ou valeur p?

Merci! Yannick

Yannick Wurm
la source
4
Vous demandez un intervalle de prédiction . Votre deuxième réflexion conduit à des intervalles de prédiction non paramétriques (qui, je crois, n'ont pas été mentionnés sur ce site auparavant).
whuber
Que pouvez-vous nous dire d'autre sur votre population? Toutes les valeurs sont-elles positives? Vous attendriez-vous à ce qu'il soit symétrique? Unimodal?
soakley
Merci et excuses j'aurais dû fournir plus d'informations. Nous examinons les intervalles de prédiction. Fondamentalement, nous avons la longueur d'une prédiction de gène focal. Et la longueur des gènes similaires trouvés dans les bases de données. Donc, tous les nombres sont des entiers positifs. Dans un cas facile, la distribution des longueurs est unimodale. En réalité, ils ne sont souvent pas présents; à ce stade, nous pouvons supposer qu'ils le sont. Quelques graphiques de distributions sont présentés ici: github.com/monicadragan/gene_prediction/tree/master/…
Yannick Wurm
Je ne suis pas convaincu que nous voulons un "intervalle de prédiction" Nous ne voulons pas prédire ... et nous ne voulons pas d'un intervalle ...?
Yannick Wurm
1
N'interprétez pas trop les termes techniques. Par définition, un "intervalle de prédiction" est construit à partir des valeurs de telle manière que, selon la distribution conjointe supposée des valeurs, la chance que la 31e valeur se trouve dans est égale à un objectif donné, tel que 95%. Si, en fait, la 31e valeur ne se situe pas dans , vous pouvez conclure que (i) vous n'avez pas eu de chance (ce qui n'avait que 5% de chance de se produire avant que vous ayez collecté les données) ou bien (ii) ce n'est pas réellement le cas où la 31e valeur a la distribution que vous supposiez: et c'est ce que vous voulez tester. 30 31 I Ije3031jeje
whuber

Réponses:

7

Dans le cas unimodal, l'inégalité Vysochanskij-Petunin peut vous donner un intervalle de prédiction approximatif. Voici le site wikipedia: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

L'utilisation de entraînera un intervalle de prédiction d'environ 95%.λ=3

Vous estimez donc la moyenne et l'écart-type de votre population et utilisez simplement la moyenne de l'échantillon plus ou moins 3 s comme intervalle.X¯3s

Il y a quelques problèmes avec cette approche. Vous ne connaissez pas vraiment la moyenne ou l'écart type; vous utilisez des estimations. Et en général, vous n'aurez pas de distributions unimodales, ce qui signifie que vous devrez utiliser des versions spécialisées de l'inégalité de Chebyshev. Mais au moins, vous avez un point de départ.

[X(je),X(j)]Xj-jen+1.X[X(1),X(30)].

[X¯-λ(1+1n)1/2s , X¯+λ(1+1n)1/2s],

n=30,λ=3.2

Soakley
la source
Cela semble être une application incorrecte de l'inégalité: cela suppose que la moyenne et la variance sont connues , où la variance ne peut être estimée qu'à partir des données dans ce contexte. La différence peut être énorme, surtout avec de petits ensembles de données. Dans mes études de simulation de propositions similaires avec l'inégalité de Chebyshev, j'ai trouvé des performances incroyablement médiocres. Intuitivement, cela est similaire à l'idée de Student selon laquelle la distribution t doit être utilisée au lieu de la distribution normale pour construire des IC; parce qu'un PI est beaucoup plus "là-bas" dans les queues, la différence est amplifiée.
whuber
2
2/316,456,45
1

Quelques réflexions que j'ai eues:

Cela revient à vouloir faire un test t à deux échantillons - sauf que pour le deuxième échantillon, je n'ai qu'une seule valeur, et les 30 valeurs ne sont pas nécessairement distribuées normalement.

Correct. L'idée est un peu comme un test t avec une seule valeur. Comme la distribution n'est pas connue et que la normalité avec seulement 30 points de données peut être un peu difficile à avaler, cela nécessite une sorte de test non paramétrique.

Si au lieu de 30 mesures, j'avais 10000 mesures, le rang de la mesure unique pourrait fournir des informations utiles.

Même avec 30 mesures, le classement peut être informatif.

Comme l'a souligné @whuber, vous voulez une sorte d'intervalle de prédiction. Pour le cas non paramétrique, ce que vous demandez, essentiellement, est le suivant: quelle est la probabilité qu'un point de données donné ait par hasard le rang que nous observons pour votre 31e mesure?

Cela peut être résolu par un simple test de permutation. Voici un exemple avec 15 valeurs et un roman (16e observation) qui est en fait plus grand que n'importe lequel des précédents:

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

Nous effectuons N permutations, où l'ordre des éléments dans la liste est mélangé, puis posons la question: quel est le rang pour la valeur du premier élément dans la liste (mélangée)?

L'exécution de N = 1 000 permutations nous donne 608 cas dans lesquels le rang du premier élément de la liste est égal ou meilleur au rang de la nouvelle valeur (en fait égal, car la nouvelle valeur est la meilleure). En exécutant à nouveau la simulation pour 1 000 permutations, nous obtenons 658 de ces cas, puis 663 ...

Si nous effectuons N = 1000000 permutations, nous obtenons 62825 cas dans lesquels le rang du premier élément de la liste est égal ou meilleur au rang de la nouvelle valeur (d'autres simulations donnent 62871 cas, puis 62840 ...). Si l'on prend le rapport entre les cas dans lesquels la condition est satisfaite et le nombre total de permutations, on obtient des nombres comme 0,062825, 0,062871, 0,06284 ...

Vous pouvez voir ces valeurs converger vers 1/16 = 0,0625 (6,25%), ce qui, comme le note @whuber, est la probabilité qu'une valeur donnée (sur 16) tirée au hasard ait le meilleur rang possible parmi elles.

Pour un nouvel ensemble de données, où la nouvelle valeur est la deuxième meilleure valeur (c.-à-d. Rang 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

on obtient (pour N = 1 000 000 permutations): 125235, 124883 ... cas favorables qui, là encore, se rapproche de la probabilité qu'une valeur donnée (sur 16) tirée au hasard ait le deuxième meilleur rang possible parmi eux: 2/16 = 0,125 (12,5%).

pythiest
la source