Statistiques et Big Data

12

Pourquoi le test d'indépendance utilise-t-il la distribution chi carré?

Le test d'ajustement de χ2χ2\chi^2 utilise la statistique suivante : χ20= ∑i = 1n( Oje- Eje)2Ejeχ02=∑i=1n(Oi−Ei)2Ei \chi_0^2=\sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i} Dans le test, en admettant que les conditions sont remplies, on utilise ladistributionχ2χ2\chi^2-pour calculer la valeur de p qui étant...

hypothesis-testing chi-squared

12

Calculer l'intervalle de confiance pour la moyenne d'une distribution bêta

Considérons une distribution bêta pour un ensemble donné de notations dans [0,1]. Après avoir calculé la moyenne: μ = αα + βμ=αα+β \mu = \frac{\alpha}{\alpha+\beta} Existe-t-il un moyen de fournir un intervalle de confiance autour de cette

mean beta-distribution

12

Pourquoi Thomas Bayes a-t-il trouvé le théorème de Bayes si difficile?

C'est plus une question d'histoire de la science, mais j'espère que c'est sur le sujet ici. J'ai lu que Thomas Bayes n'a réussi à découvrir le théorème de Bayes que pour le cas spécial d'un uniforme antérieur, et même alors, il a lutté avec, apparemment. Compte tenu de la banalité du théorème...

bayesian bayes history

12

Bayesian vs MLE, problème de surajustement

Dans le livre de Bishop's PRML, il dit que le sur-ajustement est un problème avec l'estimation de maximum de vraisemblance (MLE), et que le bayésien peut l'éviter. Mais je pense que le sur-ajustement est un problème plus lié à la sélection du modèle, pas à la méthode utilisée pour faire...

bayesian model-selection overfitting

12

Test exact de Fisher et distribution hypergéométrique

Je voulais mieux comprendre le test exact du pêcheur, j'ai donc imaginé l'exemple de jouet suivant, où f et m correspond à l'homme et à la femme, et n et y correspond à la "consommation de soda" comme ceci: > soda_gender f m n 0 5 y 5 0 Évidemment, c'est une simplification drastique, mais je ne...

fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

12

Exemples intuitifs d'échantillonnage d'importance

Mon expérience est l'informatique. Je suis assez nouveau dans les méthodes d'échantillonnage de Monte Carlo et, bien que je comprenne les mathématiques, j'ai du mal à trouver des exemples intuitifs d'échantillonnage d'importance. Plus précisément, quelqu'un pourrait-il fournir des exemples de: une...

probability distributions sampling importance-sampling

12

Modélisation lorsque la variable dépendante a un «seuil»

Toutes mes excuses à l'avance si l'une des terminologies que j'utilise est incorrecte. J'accueillerais toute correction. Si ce que je décris comme une «coupure» porte un nom différent, faites-le moi savoir et je pourrai mettre à jour la question. La situation qui m'intéresse est la suivante: vous...

regression modeling survival censoring

12

Informations extraites de la matrice chapeau pour la régression logistique

Il est clair pour moi, et bien expliqué sur plusieurs sites, quelles informations les valeurs sur la diagonale de la matrice de chapeau donnent pour la régression linéaire. La matrice chapeau d'un modèle de régression logistique est moins claire pour moi. Est-ce identique aux informations que vous...

regression logistic

12

Approximation normale de la distribution de Poisson

Ici sur Wikipedia, il est écrit: Pour des valeurs suffisamment grandes de , (disons λ> 1000 ), la distribution normale avec la moyenne λ et la variance λ (écart type \ sqrt {\ lambda} ), est une excellente approximation de la distribution de Poisson. Si λ est supérieur à environ 10, alors la...

normal-distribution poisson-distribution approximation

12

Hypothèses de distribution résiduelle de régression

Pourquoi est-il nécessaire de poser l'hypothèse distributionnelle sur les erreurs, c'est-à-dire ϵ i ∼ N ( 0 , σ 2 )yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} , avec .ϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) Pourquoi ne pas écrire y i ~ N ( X β , σ 2 )yi=Xβ+ϵiyi=Xβ+ϵiy_i =...

regression normal-distribution residuals assumptions notation

12

Meilleures pratiques pour créer des «données bien rangées»

Hadley Wickham a écrit un article stellaire intitulé "Tidy Data" ( lien ) dans JSS l'année dernière sur la manipulation des données et la mise en état "optimal" des données afin d'effectuer une analyse. Cependant, je me demandais quelles étaient les meilleures pratiques en termes de présentation de...

dataset tables

12

Comment le kurtosis d'une distribution est-il lié à la géométrie de la fonction de densité?

Le kurtosis consiste à mesurer le pic et la planéité d'une distribution. La fonction de densité de la distribution, si elle existe, peut être considérée comme une courbe et présente des caractéristiques géométriques (telles que la courbure, la convexité, ...) liées à sa forme. Je me demande donc si...

kurtosis geometry

12

Comment transformer la distribution leptokurtique en normalité?

Supposons que j'ai une variable leptokurtique que je voudrais transformer en normalité. Quelles transformations peuvent accomplir cette tâche? Je suis bien conscient que la transformation des données n'est pas toujours souhaitable, mais en tant que poursuite académique, supposons que je veuille...

normal-distribution data-transformation kurtosis qq-plot

12

Statistiques de pizza pour les masses

Une brève entrée sur le site Web du NY Times fournit les faits et chiffres de la consommation de pizza aux États-Unis. J'ai un intérêt occasionnel dans la façon dont les statistiques sont utilisées (ou utilisées abusivement) pour fournir des informations au grand public, et quelques questions se...

interpretation descriptive-statistics

12

Calculer log-vraisemblance «à la main» pour la régression généralisée des moindres carrés non linéaires (nlme)

J'essaie de calculer la log-vraisemblance pour une régression des moindres carrés non linéaires généralisée pour la fonction optimisée par le dans le package R , en utilisant la matrice de covariance de variance générée par les distances sur un arbre phylogénétique en supposant un mouvement...

r maximum-likelihood least-squares nonlinear-regression mixed-model

12

Inversion des baies

J'ai un grand ensemble de données de marché agrégées sur les ventes de vin aux États-Unis et je voudrais estimer la demande de certains vins de haute qualité. Ces parts de marché sont essentiellement dérivées d'un modèle d'utilité aléatoire de la forme où inclut les caractéristiques de produit...

logistic estimation multiple-regression categorical-data

12

Comparaison des coefficients de régression d'un même modèle dans différents ensembles de données

J'évalue deux (2) réfrigérants (gaz) qui ont été utilisés dans le même système de réfrigération. J'ai des données de température d'aspiration saturée ( ), de température de condensation ( ) et d'ampérage ( ) pour l'évaluation. Il y a deux (2) ensembles de données; 1er réfrigérant ( ) et 2e...

regression regression-coefficients

12

Pouvez-vous comparer différentes méthodes de clustering sur un ensemble de données sans vérité de fond par validation croisée?

Actuellement, j'essaie d'analyser un ensemble de données de document texte qui n'a aucune vérité fondamentale. On m'a dit que vous pouvez utiliser la validation croisée k-fold pour comparer différentes méthodes de clustering. Cependant, les exemples que j'ai vus dans le passé utilisent une vérité...

machine-learning clustering cross-validation unsupervised-learning

12

Identification des questions inutiles à partir d'un questionnaire

J'élabore un questionnaire. Pour améliorer sa fiabilité et sa validité, je souhaite utiliser des méthodes statistiques. Je veux éliminer les questions dont les réponses sont toujours les mêmes. Cela signifie que presque tous les participants ont donné les mêmes réponses à ces questions. Maintenant...

survey reliability psychometrics validity

12

Vous avez du mal à trouver un bon modèle adapté aux données de comptage avec des effets mixtes - ZINB ou autre chose?

J'ai un très petit ensemble de données sur l'abondance des abeilles solitaires que j'ai du mal à analyser. Ce sont des données de comptage, et presque tous les comptages sont dans un traitement avec la plupart des zéros dans l'autre traitement. Il existe également quelques valeurs très élevées (une...

count-data negative-binomial mixed-model zero-inflation lme4-nlme