Statistiques et Big Data

9
Calcul de la valeur de p inconnu

Je déboguais récemment un script R et j'ai trouvé quelque chose de très étrange, l'auteur a défini sa propre fonction de valeur p pval <- function(x, y){ if (x+y<20) { # x + y is small, requires R.basic p1<- nChooseK(x+y,x) * 2^-(x+y+1); p2<- nChooseK(x+y,y) * 2^-(x+y+1); pvalue =...

9
Représenter des données expérimentales

J'ai une dispute avec mon conseiller sur la visualisation des données. Il prétend que lors de la représentation des résultats expérimentaux, les valeurs doivent être tracées avec des " marqueurs " uniquement, comme présenté dans l'image ci-dessous. Alors que les courbes ne doivent représenter qu'un...

9
Comprendre les moustaches d'un boxplot

J'ai une question concernant l'interprétation des moustaches d'un boxplot. J'ai lu ce qui suit: "En haut et en bas du rectangle, les" moustaches "montrent la plage de 1,5 fois la distance entre les quantiles de 0,25 et 0,75", mais je ne comprends pas entièrement ce que l'on entend par "distance" ....

9
Régression vers le casse-tête moyen

Dans le chapitre "Regression to the Mean" de "Thinking, Fast and Slow" de Daniel Kahneman, un exemple est donné et le lecteur est invité à prévoir les ventes des magasins individuels compte tenu des prévisions de ventes globales et des chiffres de ventes de l'année précédente . Par exemple...

9
Quelle est la différence entre maximiser la vraisemblance conditionnelle (log) ou vraisemblance conjointe (log) lors de l'estimation des paramètres d'un modèle?

Considérons une réponse y et de la matrice de données X . Supposons que je crée un modèle de formulaire - y ~ g (X,θθ\theta) (g () pourrait être n'importe quelle fonction de X et θθ\theta) Maintenant, pour estimer θθ\thetaen utilisant la méthode du maximum de vraisemblance (ML), je pourrais aller...

9
Qu'entend-on par «niveau» d'une série chronologique?

Dans une grande partie de la littérature que j'étudie, c'est l'un de ces termes qui revient fréquemment mais sans définition rigoureuse. Plus précisément, on me dit: Pour les variables aléatoires indexées dans le temps (RVs) , le modèle de décomposition additive est donné comme{Xt}{Xt}\{X_t\}...