Statistiques et Big Data

12

Différence entre les prévisions «dans l'échantillon» et «pseudo hors échantillon»

Existe-t-il une différence explicite entre les prévisions dans l'échantillon et les prévisions pseudo-hors échantillon . Les deux sont conçus dans le contexte de l'évaluation et de la comparaison des modèles de

12

Dans R, comment calculer la valeur de p pour l'aire sous ROC

J'ai du mal à trouver un moyen de calculer la valeur de p pour la zone sous une caractéristique d'opérateur de récepteur (ROC). J'ai une variable continue et un résultat de test de diagnostic. Je veux voir si AUROC est statistiquement significatif. J'ai trouvé de nombreux packages traitant des...

r p-value roc

12

Données de John Kerrich à retournement

Quelqu'un peut-il suggérer où obtenir les résultats des 10 000 lancers de pièces (c'est-à-dire les 10 000 têtes et queues) exécutés par John Kerrich pendant la Seconde Guerre

probability

12

Intuition derrière les corrélations «partielles» et «marginales»

Quelqu'un a-t-il une idée de la raison pour laquelle la corrélation conditionnelle entre 2 variables est appelée corrélation "partielle" et la corrélation simple entre elles (donc, lorsqu'elle n'est conditionnée à aucune autre variable) est appelée corrélation "marginale"? Quelle est l'intuition...

correlation terminology marginal partial-correlation

12

Pourquoi certaines personnes testent des hypothèses de modèle de régression sur leurs données brutes et d'autres les testent sur le résidu?

Je suis doctorant en psychologie expérimentale et je m'efforce d'améliorer mes compétences et mes connaissances sur la façon d'analyser mes données. Jusqu'à ma 5e année en psychologie, je pensais que les modèles de régression (par exemple, ANOVA) supposaient les choses suivantes: normalité des...

regression dataset residuals assumptions

12

Régression logistique et point d'inflexion

Nous avons des données avec un résultat binaire et quelques covariables. J'ai utilisé la régression logistique pour modéliser les données. Juste une simple analyse, rien d'extraordinaire. La sortie finale est supposée être une courbe dose-réponse où nous montrons comment la probabilité change pour...

regression logistic generalized-linear-model binary-data

12

Comment puis-je regrouper les valeurs p amorcées dans plusieurs ensembles de données imputées?

Je suis préoccupé par le problème que j'aimerais amorcer la valeur de p pour une estimation de partir de données multipliées imputées (MI), mais qu'il n'est pas clair pour moi comment combiner les valeurs de p entre les ensembles d'IM.θθ\theta Pour les ensembles de données MI, l'approche standard...

confidence-interval variance p-value bootstrap multiple-imputation

12

Fréquence de terme / fréquence de document inverse (TF / IDF): pondération

J'ai un ensemble de données qui représente 1000 documents et tous les mots qui y apparaissent. Les lignes représentent donc les documents et les colonnes les mots. Ainsi, par exemple, la valeur dans la cellule représente la fois où le mot apparaît dans le document . Maintenant, je dois trouver des...

r data-mining feature-selection

12

Intuition derrière la fonction de densité des distributions t

J'étudie la distribution t de Student et j'ai commencé à me demander comment dériverait la fonction de densité des distributions t (de wikipedia, http://en.wikipedia.org/wiki/Student%27s_t-distribution ): F( t ) = Γ ( v + 12)v π--√Γ ( v2)( 1 + t2v)- v + 12f(t)=Γ(v+12)vπΓ(v2)(1+t2v)−v+12f(t) =...

probability normal-distribution t-distribution

12

Détection des valeurs aberrantes dans de très petits ensembles

J'ai besoin d'obtenir une valeur aussi précise que possible pour la luminosité d'une source de lumière principalement stable étant donné douze valeurs de luminosité d'échantillon. Le capteur est imparfait, et la lumière peut parfois "scintiller" plus ou moins sombre, ce qui peut être ignoré, d'où...

classification outliers algorithms

12

Quand est-il approprié de sélectionner des modèles en minimisant l'AIC?

Il est bien établi, au moins chez les statisticiens d'un calibre supérieur, que les modèles dont les valeurs de la statistique AIC se situent dans un certain seuil de la valeur minimale doivent être considérés comme appropriés comme modèle minimisant la statistique AIC. Par exemple, dans [1,...

time-series model-selection aic

12

MLE signifie-t-il toujours que nous connaissons le PDF sous-jacent de nos données, et EM signifie-t-il que nous ne le savons pas?

J'ai quelques questions conceptuelles simples que j'aimerais clarifier concernant MLE (Maximum Lik vraisemblable Estimation), et quel lien il a, le cas échéant, avec EM (Expectation Maximization). Si je comprends bien, si quelqu'un dit "Nous avons utilisé le MLE", cela signifie-t-il automatiquement...

estimation maximum-likelihood expectation-maximization

12

Mots courants qui ont des significations statistiques particulières

Je ne suis pas statisticien mais mon travail de recherche porte sur des statistiques (analyse de données, lecture de littérature, etc.). Un commentaire sur l'une de mes questions publiée ici m'a rappelé que certains mots courants ont des significations ou des connotations particulièrement...

terminology

12

Raison intuitive pour laquelle l'information de Fisher sur le binôme est inversement proportionnelle à

Cela me rend confus / époustouflant que le binôme a une variance proportionnelle à . De manière équivalente, les informations de Fisher sont proportionnelles à 1p ( 1 - p )p(1−p)p(1-p) . Quelle est la raison pour ça? Pourquoi l'information Fisher est-elle minimisée àp=0,5? Autrement dit, pourquoi...

variance binomial interpretation

12

Ratio de probabilités vs ratio de PDF

J'utilise Bayes pour résoudre un problème de clustering. Après avoir fait quelques calculs, je me retrouve avec la nécessité d'obtenir le rapport de deux probabilités: P(A)/P(B)P(A)/P(B)P(A)/P(B) pouvoir obtenir . Ces probabilités sont obtenues par intégration de deux KDE multivariés 2D différents...

probability bayesian maximum-likelihood kernel-smoothing

12

Un prétraitement est-il nécessaire avant la prédiction à l'aide de FinalModel de RandomForest avec package caret?

J'utilise le package caret pour entraîner un objet randomForest avec 10x10CV. library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) Après cela, je...

r random-forest prediction caret

12

Algorithme récursif (en ligne) des moindres carrés régularisés

Quelqu'un peut-il m'orienter vers un algorithme en ligne (récursif) pour la régularisation de Tikhonov (moindres carrés régularisés)? Dans un cadre hors ligne, je calculerais β^=(XTX+λI)−1XTYβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TY utilisant mon ensemble de données d'origine où λλλ est trouvé...

regression machine-learning least-squares regularization online

12

Test d'hypothèse pour la différence de médiane entre plus de deux échantillons

Question Les résultats des tests de trois groupes de personnes sont enregistrés en tant que vecteurs distincts dans R. set.seed(1) group1 <- rnorm(100, mean = 75, sd = 10) group2 <- rnorm(100, mean = 85, sd = 10) group3 <- rnorm(100, mean = 95, sd = 10) Je veux savoir s'il y a une...

r hypothesis-testing multiple-comparisons mean median

12

Le test

Je viens de lire dans un magazine scientifique (populaire) plutôt bien respecté (le PM allemand, 02/2013, p.36) sur une expérience intéressante (sans source, malheureusement). Cela a attiré mon attention parce que je doutais intuitivement de la signification du résultat, mais les informations...

hypothesis-testing chi-squared experiment-design proportion biostatistics

12

Pourquoi le test F dans les modèles linéaires gaussiens est le plus puissant?

Pour un modèle linéaire gaussien où est supposé se trouver dans un espace vectoriel et a la distribution normale standard sur , la statistique du test pour où est un espace vectoriel, est une fonction un à un croissante de la statistique de déviance : Comment savoir que cette statistique fournit le...

hypothesis-testing normal-distribution linear-model power likelihood-ratio