Comment s'appelle ce «phénomène»?

8

Vous trouverez ci-dessous un histogramme de certaines données, les cases sont des entiers, les autres paramètres ne sont pas pertinents.

Des distributions qui se chevauchent

Comme vous pouvez le voir, il semble y avoir deux distributions normales distinctes mais qui se chevauchent pour les nombres pairs et impairs.

La probabilité d'être un nombre pair est de 1/3, de même de 2/3 pour un nombre impair.

Pour être honnête, je n'ai aucune idée de la signification statistique réelle de cela, donc j'essaie de savoir ce que c'est que d'en savoir plus, mais je ne trouve rien, j'ai essayé tellement de termes de recherche pour le trouver et même recherche d'images inversées mais tout ce que j'obtiens est des informations sur les distributions multimodales, etc. et je ne trouve rien sur le moment où les distributions multimodales se chevauchent réellement de cette manière

Y a-t-il un nom pour cela?

Pour les personnes intéressées, les données proviennent de 1 000 000 de jeux de goofspiel randomisés (N = 13) utilisant le script matlab

N = 1000000;
random = zeros(1,N);
for i = 1 : N
    pc = randperm(13);
    p1 = randperm(13);
    p2 = randperm(13);
    random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')

Un exemple plus général (quoique artificiel) serait le suivant

a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
    if(d(i)) 
        c(i) = b(i);
    end
end
bar(c)

Exemple général

Comme dans le premier exemple, deux distributions se chevauchent (triangulaire et normale), mais dans ce cas, au lieu d'alterner à chaque point, c'est aléatoire.

Je sais que c'est un exemple exagéré (et même pas un histogramme) mais il doit y avoir des exemples de ce genre de chose qui se passe réellement avec les données statistiques, n'est-ce pas? Là encore, peut-être pas, ou c'est complètement hors de propos?

La vraie question est double:
La question générale - Comment s'appelle ce type de «chose», le cas échéant? - afin que moi (ou toute autre personne susceptible de le rencontrer) puisse en savoir plus à ce sujet et savoir si des ajustements doivent être apportés.
La question en ce qui concerne spécifiquement mon premier ensemble de données - dois-je séparer les valeurs paires et impaires ou ajuster une distribution normale à l'ensemble?

Benjamin Tilbury
la source
On dirait un modèle de mélange génial, où le pdf est 1/3 (pdf d'evens) +2/3 (pdf de cotes). Je ne sais pas comment y intégrer la distribution normale, car elle n'est clairement pas continue.
Huy Pham
Quelle est exactement la question? Vous semblez simuler certaines données, qui suivent une distribution étrange, mais quel est exactement le problème?
Tim
1
@Tim Je l'ai édité pour être un peu plus clair. Je suppose que je suis sous l'hypothèse que c'est moins rare que c'est, et a été étudié auparavant. Si ce n'est pas le cas, la question est simplement de savoir comment procéder pour décrire / modéliser la distribution de mon premier ensemble de données
Benjamin Tilbury
@BenjaminTilbury concernant votre dernière question, convenable. Vous pouvez ajuster plus facilement une courbe de densité normale à l'histogramme lorsque vous augmentez la taille du bac à deux. Une autre approche consisterait à ajuster la distribution cumulative. L'option que vous choisissez dépend un peu de ce que vous allez en faire. Votre intérêt porte peut-être davantage sur la fonction de distribution cumulative.
Sextus Empiricus
Cela s'appelle "aliasing". Les motifs moirés sont l'un des (très nombreux) exemples.
whuber

Réponses:

4

Cette réponse n'est pas une réponse directe à votre question, car elle se rapporte à une cause différente du modèle.

Mais cela se rapporte à la même apparence graphique, et donc je la poste comme réponse plutôt que comme commentaire (avant de lire votre script Matlab, je pensais en fait que le motif dans votre histogramme était dû à cette cause différente).


Votre question m'a fait revoir un histogramme que j'ai tracé en réponse à une question récente.

vieille illustration

J'ai utilisé le binsize 1, tandis que la distance entre les résultats (discrets) était de 0,538. Faire les barres de l'histogramme à tracer occasionnellement avec les décomptes pour une seule valeur au lieu des décomptes pour deux valeurs.

Après avoir ajusté la taille des bacs, l'histogramme est apparu plus typique

nouvelle illustration

Dans ce cas, nous pourrions appeler le motif un motif Moiré , qui est l'apparition de bandes artificielles claires et sombres en raison d'un désalignement de deux échelles discrètes.

Dans votre cas, cependant, le schéma périodique n'est pas un effet artificiel dans l'histogramme mais un comportement vraiment périodique dans la fonction de masse de probabilité. Quoi qu'il en soit, j'ai pensé qu'il était utile de mentionner ce motif Moiré connexe.

Sextus Empiricus
la source
2
Si vous cherchez un peu sur Google, vous trouverez de nombreux histogrammes avec des motifs de moiré similaires. Par exemple sur ce blog SAS cet article sur les relevés d'oiseaux ou cet article sur le stress
Sextus Empiricus
-1

Désolé, je ne connais pas de nom établi, mais pour répondre à votre deuxième question:

dois-je séparer les valeurs paires et impaires ou adapter une distribution normale à l'ensemble?

Je pense que vous devriez les séparer. Votre analyse a découvert que le facteur / prédicteur le plus important est de savoir si l'entrée est impaire ou paire, donc les fusionner reviendrait à brouiller les deux distributions et à les rendre moins utiles (*).

*: Bien sûr, cela dépend vraiment de votre définition d'utile. Je m'approche du point de vue de vous avez quelques entrées et voulez faire un modèle pour prédire certaines sorties. Une fois que nous savons qu'il est significatif, je voudrais donner au modèle l'indication que la parité d'une / de certaines entrées est importante.

Soit dit en passant, comme dans la réponse de Martijn Weterings, lorsque j'ai eu des histogrammes irréguliers comme celui-ci auparavant, cela a été lié au choix de la taille du bac. Cela m'a fait réaliser que l'expérimentation de la taille du bac est un autre outil de la boîte à outils Lying With Stats :-)

Darren Cook
la source
Cher votant: avez-vous été en désaccord avec quelque chose en particulier? Si oui, veuillez m'instruire.
Darren Cook