Statistiques et Big Data

8

Génération de variables aléatoires causalement dépendantes

J'essaie de générer des ensembles de variables aléatoires liées de manière causale et j'ai commencé à le faire avec une approche de monte carlo. La ligne de base est un histogramme mesuré en 2 dimensions à partir duquel je tire des valeurs aléatoires. Dans mes exemples concrets, ces variables sont...

monte-carlo random-generation

8

Lorsque vous faites des inférences sur les moyennes de groupe, les intervalles crédibles sont-ils sensibles à la variance intra-sujet alors que les intervalles de confiance ne le sont pas?

Ceci est un spin-off de cette question: comment comparer deux groupes avec plusieurs mesures pour chaque individu avec R? Dans les réponses (si j'ai bien compris), j'ai appris que la variance intra-sujet n'affecte pas les inférences faites sur les moyennes de groupe et il est correct de simplement...

r confidence-interval mixed-model jags error-propagation

8

Valeurs négatives dans les prédictions pour une variable de réponse toujours positive en régression linéaire

J'essaie de prédire une variable de réponse en régression linéaire qui devrait toujours être positive (coût par clic). C'est un montant monétaire. Dans AdWords, vous payez Google pour les clics sur vos annonces, et un nombre négatif signifie que Google vous paie lorsque les utilisateurs cliquent...

regression predictive-models

8

Approximation des quantités relatives de pièces au Canada

Serait - il possible de rapprocher avec précision les quantités relatives de timbrés , Twoonies , quartiers, dimes, Nickles (et peut - être le denier fin de série) en circulation d'obtenir simplement un échantillon suffisamment grand de pièces de monnaie par l' utilisation de tous les jours? Par...

self-study application

8

Pourquoi le processus de Dirichlet ne convient-il pas aux applications en paramètres non paramétriques bayésiens?

La nature discrète du DP le rend impropre à des applications générales dans les paramètres non paramétriques bayésiens, mais il est bien adapté au problème de placement des a priori sur les composants du mélange dans la modélisation des mélanges. Cette citation est extraite des processus...

machine-learning mcmc dirichlet-process

8

Choix d'une métrique de performances de classification pour la sélection de modèle, la sélection de fonctionnalités et la publication

J'ai un petit ensemble de données déséquilibrées (70 positives, 30 négatives), et j'ai joué avec la sélection de modèle pour les paramètres SVM en utilisant BAC (précision équilibrée) et AUC (zone sous la courbe). J'ai utilisé différents poids de classe pour le paramètre C dans libSVM pour...

svm cross-validation model-selection auc

8

Pourquoi utiliser bayesglm?

Ma question générale est: pourquoi utiliser à la bayesglmplace d'autres méthodes de classification? Remarque: Je ne m'intéresse qu'à la prédiction. J'ai une quantité décente de données (~ 100 000 obs.). J'ai l'impression que la taille de l'échantillon est suffisamment grande pour que les paramètres...

bayesian generalized-linear-model

8

Pourquoi la probabilité logarithmique doit-elle aller à moins l'infini lorsque le paramètre s'approche de la limite de l'espace des paramètres?

Dans une récente conférence, on m'a dit que, pour que l'estimation du maximum de vraisemblance soit valide, la probabilité logarithmique doit aller à moins l'infini lorsque le paramètre va à la limite de l'espace des paramètres. Mais je ne comprends pas pourquoi c'est essentiel. Supposons que la...

maximum-likelihood

8

À la recherche du «coude» dans les données

La subitisation est l'énumération rapide et précise des affichages à faible numérosité, qui se distingue du comptage par une forte non-linéarité dans le tracé des temps de réponse. Vous trouverez ci-dessous un graphique représentatif de Watson, DG, Maylor, EA et Bruce, LAM (2007). Notez que les...

linear-model contrasts

8

Cartes auto-organisées vs k-means du noyau

Pour une application, je souhaite regrouper des données (potentiellement de grande dimension) et extraire la probabilité d'appartenir à un cluster. Je considère en ce moment des cartes auto-organisées ou des k-moyens du noyau pour faire le travail. Quels sont les avantages et les inconvénients de...

clustering unsupervised-learning

8

Quelle méthode simule les valeurs p du rééchantillonnage à partir des données

Il y a quelque temps, j'ai posé une question sur la corrélation des temps entre les horodatages et j'ai reçu une réponse de Peter Ellis qui m'a dit que je pouvais calculer les distances moyennes entre les codes ... Cela vous donnera déjà une idée des comportements qui sont regroupés, mais vous...

bootstrap monte-carlo resampling quasi-monte-carlo

8

Prédiction de variable de réponse catégorique

J'ai le type de données suivant (codé en R): v.a = c('cat', 'dog', 'dog', 'goat', 'cat', 'goat', 'dog', 'dog') v.b = c(1, 2, 1, 2, 1, 2, 1, 2) v.c = c('blue', 'red', 'blue', 'red', 'red', 'blue', 'yellow', 'yellow') set.seed(12) v.d = rnorm(8) aov(v.a ~ v.b + v.c + v.d) # Error Je voudrais savoir...

r logistic anova categorical-data multinomial

8

Démonstration du biais quantile de l'échantillon

En faisant quelques simulations, j'ai réalisé que le quantile d'échantillon est un estimateur biaisé du vrai quantile. Et, selon mes simulations, potentiellement très biaisée. J'ai été surpris de ce résultat car le CDF empirique n'est pas biaisé, mais après quelques recherches sur Internet, j'ai...

estimation quantiles

8

Exemples pour une classe SVM dans R

J'essaie de faire du SVM à une classe dans R. J'ai essayé d'utiliser le package kernlab e1071 / ksvm. Mais je ne sais pas si je le fais correctement. Existe-t-il un exemple de travail pour SVM à une classe dans R? Aussi, Je donne une grande matrice de prédicteurs sous forme de X. Puisqu'il est...

r svm

8

Visualisation des données longitudinales avec résultat binaire

Pour les données longitudinales avec un résultat numérique, je peux utiliser des tracés de spaghetti pour visualiser les données. Par exemple quelque chose comme ça (tiré du site UCLA Stats): tolerance<-read.table("http://www.ats.ucla.edu/stat/r/faq/tolpp.csv",sep=",", header=T) head(tolerance,...

data-visualization repeated-measures binary-data panel-data

8

Probabilités de régression logistique

J'ai construit un modèle de régression logistique en R et bien que le résultat semble satisfaisant dans une certaine mesure, il y a une question que je ne suis pas en mesure de répondre. Je ne sais pas si mon approche est correcte. Je sais que l'objectif global du modèle logistique est de prédire...

probability distributions logistic binomial

8

Comment choisir la répartition dans la forêt aléatoire pour les prédicteurs catégoriels (fonctionnalités)?

Je comprends comment la meilleure répartition est choisie pour la forêt aléatoire pour les prédicteurs numériques (caractéristiques). Les prédicteurs numériques sont triés puis pour chaque valeur, l'impureté ou l'entropie de Gini est calculée et un seuil est choisi qui donne la meilleure...

machine-learning random-forest

8

Combinaison de valeurs de p de différents tests statistiques appliqués sur les mêmes données

Bien que le titre de la question semble trivial, je voudrais expliquer qu'il n'est pas si trivial dans le sens où il est différent de la question d'appliquer le même test statistique dans des ensembles de données similaires pour tester une hypothèse nulle totale (méta-analyse, par exemple en...

hypothesis-testing probability statistical-significance multiple-comparisons p-value

8

Lorsque n augmente, la valeur t augmente dans un test d'hypothèse, mais la table t est tout le contraire. Pourquoi?

La formule de dans un test d'hypothèse est donnée par: tttt=X¯−μσ^/n−−√.t=X¯−μσ^/n. t=\frac{\bar{X}-\mu}{\hat \sigma/\sqrt{n}}. Lorsque augmente, la valeur augmente selon la formule ci-dessus. Mais pourquoi la valeur critique diminue- mesure que (qui est une fonction de )...

hypothesis-testing self-study statistical-significance t-test t-distribution

8

Modèle de factorisation matricielle pour les systèmes recommandés comment déterminer le nombre de fonctionnalités latentes?

J'essaie de concevoir une technique de factorisation matricielle pour un élément utilisateur simple, un système de recommandation de notes. J'ai 2 questions à ce sujet. Tout d'abord dans une implémentation simple que j'ai vue de la technique de factorisation matricielle pour la recommandation de...

recommender-system matrix-decomposition parameterization ensemble