Statistiques et Big Data

10

Puissance d'un test de Mann Whitney par rapport au test

Ainsi, un test de Mann Whitney U est censé être environ 95% aussi puissant qu'un test t lorsque les hypothèses de normalité et de variance homogène du test t sont satisfaites. Je sais également qu'un test de Mann Whitney U est plus puissant qu'un test t lorsque ces hypothèses ne sont pas...

10

Quelles sont les corrections Hommel Hochberg?

J'ai récemment été initié aux corrections Hommel Hochberg. J'essaie de trouver une explication simple sur ce que c'est / fait réellement, mais je n'ai pas de chance. Quelqu'un peut-il donner une description brève et simple des corrections Hommel

hypothesis-testing multiple-comparisons p-value glmm

10

Log Lik vraisemblance pour GLM

Dans le code suivant, j'effectue une régression logistique sur des données groupées en utilisant glm et "à la main" en utilisant mle2. Pourquoi la fonction logLik dans R me donne-t-elle une vraisemblance logLik (fit.glm) = - 2,336 différente de celle logLik (fit.ml) = - 5,514 que je reçois à la...

r self-study generalized-linear-model

10

Quelle est la différence entre la probabilité et la logique floue?

Je travaille avec la logique floue (FL) depuis des années et je sais qu'il existe des différences entre FL et les probabilités concernant en particulier la manière dont FL gère l'incertitude. Cependant, je voudrais demander quelles sont les autres différences entre FL et la probabilité? En d'autres...

bayes fuzzy

10

PyMC pour le regroupement non paramétrique: le processus de Dirichlet pour estimer les paramètres du mélange gaussien ne parvient pas à se regrouper

Configuration du problème L'un des premiers problèmes de jouets auquel j'ai voulu appliquer PyMC est le clustering non paramétrique: étant donné certaines données, modélisez-le comme un mélange gaussien et apprenez le nombre de clusters et la moyenne et la covariance de chaque cluster. La plupart...

bayesian clustering python pymc nonparametric-bayes

10

Arbres de décision: mise à l'échelle variable (fonctionnalité) et normalisation variable (fonctionnalité) (réglage) requises dans quelles implémentations?

Dans de nombreux algorithmes d'apprentissage automatique, la mise à l'échelle des fonctionnalités (aka mise à l'échelle variable, normalisation) est une étape de pré-traitement courante Wikipedia - Mise à l'échelle des fonctionnalités - cette question était proche Question # 41704 - Comment et...

machine-learning feature-selection cart

10

Quel test statistique doit être utilisé pour tester l'enrichissement des listes de gènes?

J'ai effectué une expérience pour tester la sensibilité cellulaire à un certain agent de dégradation de l'ADN. Nous avons trouvé 270 gènes qui étaient spécifiquement sensibles au médicament et le nombre total de gènes analysés était de 3668. 38 des 270 gènes sensibles sont classés comme «gènes de...

biostatistics

10

Déterminer la taille de l'échantillon avec une proportion et une distribution binomiale

J'essaie d'apprendre quelques statistiques en utilisant le livre, Biometry by Sokal and Rohlf (3e). Il s'agit d'un exercice du 5ème chapitre qui couvre la probabilité, la distribution binomiale et la distribution de Poisson. Je me rends compte qu'il existe une formule pour produire une réponse à...

self-study binomial proportion power-analysis type-i-and-ii-errors

10

Recalculer la log-vraisemblance à partir d'un simple modèle R lm

J'essaie simplement de recalculer avec dnorm () la log-vraisemblance fournie par la fonction logLik à partir d'un modèle lm (dans R). Cela fonctionne (presque parfaitement) pour un grand nombre de données (par exemple n = 1000): > n <- 1000 > x <- 1:n > set.seed(1) > y <- 10 +...

r generalized-linear-model likelihood lm

10

Comprendre le hachage des fonctionnalités

Wikipedia fournit l'exemple suivant lors de la description du hachage des fonctionnalités ; mais le mappage ne semble pas cohérent avec le dictionnaire défini Par exemple, todoit être converti en 3fonction du dictionnaire, mais il est codé comme à la 1place. Y a-t-il une erreur dans la description?...

feature-construction

10

Qu'est-ce qui est avant tout faiblement informatif?

Existe-t-il une définition précise de la priorité faiblement informative? En quoi est-il différent d'un prieur subjectif avec un large

bayesian prior

10

concernant l'indépendance conditionnelle et sa représentation graphique

En étudiant la sélection de covariance, j'ai lu une fois l'exemple suivant. En ce qui concerne le modèle suivant: Sa matrice de covariance et sa matrice de covariance inverse sont données comme suit, Je ne comprends pas pourquoi l'indépendance de et est décidée par la covariance inverse ici?xxxyyy...

machine-learning bayesian conditional-probability covariance graphical-model

10

Quelles sont les limites des méthodes du noyau et quand utiliser les méthodes du noyau?

Les méthodes du noyau sont très efficaces dans de nombreuses tâches de classification supervisées. Quelles sont donc les limites des méthodes du noyau et quand utiliser les méthodes du noyau? Surtout à l'ère des données à grande échelle, quelles sont les avancées des méthodes du noyau? Quelle est...

machine-learning kernel-trick

10

Modèles mixtes linéaires généralisés: sélection de modèle

Cette question / sujet a été soulevé lors d'une discussion avec un collègue et je cherchais des opinions à ce sujet: Je modélise certaines données en utilisant une régression logistique à effets aléatoires, plus précisément une régression logistique à interception aléatoire. Pour les effets fixes,...

mixed-model model-selection aic glmm stepwise-regression

10

Existe-t-il un «standard» pour la notation des modèles statistiques?

Dans, par exemple, le manuel BUGS ou le prochain livre de Lee et Wagenmakers ( pdf ) et dans de nombreux autres endroits, un type de notation est utilisé qui me semble très flexible en ce qu'il peut être utilisé pour décrire succinctement la plupart des modèles statistiques. Un exemple de cette...

references model notation

10

Implications du débat actuel sur la signification statistique

Au cours des dernières années, divers chercheurs ont soulevé un problème préjudiciable de test d'hypothèse scientifique, surnommé "degré de liberté du chercheur", ce qui signifie que les scientifiques ont de nombreux choix à faire lors de leur analyse qui biaisent vers la recherche avec une valeur...

hypothesis-testing inference philosophical reproducible-research social-science

10

Intégration rapide avec eCDF dans R

J'ai une équation intégrale de la forme où est le cdf empirique et est une fonction . J'ai une cartographie de contraction et j'essaie donc de résoudre l'équation intégrale en utilisant la séquence du théorème de Banach Fixed Point.T1(x)=∫x0g(T1(y)) dF^n(y)T1(x)=∫0xg(T1(y)) dF^n(y) T_1(x) =...

r numerical-integration

10

Classificateur pour une seule classe

Dans une classification simple, nous avons deux classes: classe 0 et classe 1. Dans certaines données, je n'ai que des valeurs pour la classe 1, donc aucune pour la classe 0. Maintenant, je pense à faire un modèle pour modéliser les données pour la classe 1. Ainsi, lorsque de nouvelles données...

machine-learning one-class

10

Je veux montrer

Soit une variable aléatoire sur l'espace des probabilités Montrer queX:Ω→NX:Ω→NX:\Omega \to \mathbb N(Ω,B,P)(Ω,B,P)(\Omega,\mathcal B,P)E(X)=∑n=1∞P(X≥n).E(X)=∑n=1∞P(X≥n).E(X)=\sum_{n=1}^\infty P(X\ge n). ma définition de est égale à E(X)E(X)E(X)E(X)=∫ΩXdP.E(X)=∫ΩXdP.E(X)=\int_\Omega X \, dP....

probability self-study expected-value

10

Testez si les gens abandonnent ou diminuent les paris après des pertes répétées

J'ai des données sur une série de paris gagnants et perdants sur 5 tours d'enchères avec attrition après chaque tour. J'utilise un arbre de décision comme le suivant pour afficher les données. Les nœuds vers le haut de l'arbre sont ceux qui ont des paris gagnants, et ceux vers le bas de l'arbre ont...

t-test survival panel-data time-varying-covariate