Vous trouverez ci-dessous un histogramme de certaines données, les cases sont des entiers, les autres paramètres ne sont pas pertinents.
Comme vous pouvez le voir, il semble y avoir deux distributions normales distinctes mais qui se chevauchent pour les nombres pairs et impairs.
La probabilité d'être un nombre pair est de 1/3, de même de 2/3 pour un nombre impair.
Pour être honnête, je n'ai aucune idée de la signification statistique réelle de cela, donc j'essaie de savoir ce que c'est que d'en savoir plus, mais je ne trouve rien, j'ai essayé tellement de termes de recherche pour le trouver et même recherche d'images inversées mais tout ce que j'obtiens est des informations sur les distributions multimodales, etc. et je ne trouve rien sur le moment où les distributions multimodales se chevauchent réellement de cette manière
Y a-t-il un nom pour cela?
Pour les personnes intéressées, les données proviennent de 1 000 000 de jeux de goofspiel randomisés (N = 13) utilisant le script matlab
N = 1000000;
random = zeros(1,N);
for i = 1 : N
pc = randperm(13);
p1 = randperm(13);
p2 = randperm(13);
random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')
Un exemple plus général (quoique artificiel) serait le suivant
a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
if(d(i))
c(i) = b(i);
end
end
bar(c)
Comme dans le premier exemple, deux distributions se chevauchent (triangulaire et normale), mais dans ce cas, au lieu d'alterner à chaque point, c'est aléatoire.
Je sais que c'est un exemple exagéré (et même pas un histogramme) mais il doit y avoir des exemples de ce genre de chose qui se passe réellement avec les données statistiques, n'est-ce pas? Là encore, peut-être pas, ou c'est complètement hors de propos?
La vraie question est double:
La question générale - Comment s'appelle ce type de «chose», le cas échéant? - afin que moi (ou toute autre personne susceptible de le rencontrer) puisse en savoir plus à ce sujet et savoir si des ajustements doivent être apportés.
La question en ce qui concerne spécifiquement mon premier ensemble de données - dois-je séparer les valeurs paires et impaires ou ajuster une distribution normale à l'ensemble?
la source
Réponses:
Cette réponse n'est pas une réponse directe à votre question, car elle se rapporte à une cause différente du modèle.
Mais cela se rapporte à la même apparence graphique, et donc je la poste comme réponse plutôt que comme commentaire (avant de lire votre script Matlab, je pensais en fait que le motif dans votre histogramme était dû à cette cause différente).
Votre question m'a fait revoir un histogramme que j'ai tracé en réponse à une question récente.
J'ai utilisé le binsize 1, tandis que la distance entre les résultats (discrets) était de 0,538. Faire les barres de l'histogramme à tracer occasionnellement avec les décomptes pour une seule valeur au lieu des décomptes pour deux valeurs.
Après avoir ajusté la taille des bacs, l'histogramme est apparu plus typique
Dans ce cas, nous pourrions appeler le motif un motif Moiré , qui est l'apparition de bandes artificielles claires et sombres en raison d'un désalignement de deux échelles discrètes.
Dans votre cas, cependant, le schéma périodique n'est pas un effet artificiel dans l'histogramme mais un comportement vraiment périodique dans la fonction de masse de probabilité. Quoi qu'il en soit, j'ai pensé qu'il était utile de mentionner ce motif Moiré connexe.
la source
Désolé, je ne connais pas de nom établi, mais pour répondre à votre deuxième question:
Je pense que vous devriez les séparer. Votre analyse a découvert que le facteur / prédicteur le plus important est de savoir si l'entrée est impaire ou paire, donc les fusionner reviendrait à brouiller les deux distributions et à les rendre moins utiles (*).
*: Bien sûr, cela dépend vraiment de votre définition d'utile. Je m'approche du point de vue de vous avez quelques entrées et voulez faire un modèle pour prédire certaines sorties. Une fois que nous savons qu'il est significatif, je voudrais donner au modèle l'indication que la parité d'une / de certaines entrées est importante.
Soit dit en passant, comme dans la réponse de Martijn Weterings, lorsque j'ai eu des histogrammes irréguliers comme celui-ci auparavant, cela a été lié au choix de la taille du bac. Cela m'a fait réaliser que l'expérimentation de la taille du bac est un autre outil de la boîte à outils Lying With Stats :-)
la source