Statistiques et Big Data

11

Comment ajuster un PDF approximatif (ie: estimation de densité) en utilisant les k premiers moments (empiriques)?

J'ai une situation où je peux estimer (les premiers) moments d'un ensemble de données, et je voudrais l'utiliser pour produire une estimation de la fonction de densité.kkk J'ai déjà rencontré la distribution Pearson , mais j'ai réalisé qu'elle ne dépend que des 4 premiers moments (avec quelques...

pdf kernel-smoothing moments

11

Valeurs p bootstrap non paramétriques vs intervalles de confiance

Le contexte C'est un peu similaire à cette question , mais je ne pense pas que ce soit un doublon exact. Lorsque vous recherchez des instructions sur la façon d'effectuer un test d'hypothèse de bootstrap, il est généralement indiqué qu'il est correct d'utiliser la distribution empirique pour les...

confidence-interval p-value bootstrap

11

Est-il toujours préférable d'extraire plus de facteurs lorsqu'ils existent?

Contrairement à l'analyse des composants principaux, les solutions aux modèles d'analyse factorielle ne sont pas nécessairement imbriquées. Autrement dit, les charges (par exemple) pour le premier facteur ne seront pas nécessairement identiques lorsque seul le premier facteur est extrait par...

references factor-analysis psychometrics

11

Des ressources pour apprendre des techniques à cibles multiples?

Je recherche des ressources (livres, notes de cours, etc.) sur les techniques pouvant gérer des données à cibles multiples (Ex: trois variables dépendantes: 2 discrètes et 1 continue). Quelqu'un at-il des ressources / connaissances à ce sujet? Je sais qu'il est possible d'utiliser des réseaux de...

regression machine-learning predictive-models references

11

Deux définitions de la valeur de p: comment prouver leur équivalence?

Je lis le livre de Larry Wasserman, All of Statistics , et actuellement sur les valeurs de p (page 187). Permettez-moi d'abord de présenter quelques définitions (je cite): Définition 1 La fonction de puissance d'un test avec une région de rejet est définie par La taille d'un test est définie comme...

hypothesis-testing mathematical-statistics p-value

11

Succès des essais de Bernoulli avec différentes probabilités

Si 20 essais Bernoulli indépendants sont effectués chacun avec une probabilité de réussite et donc d'échec différente. Quelle est la probabilité que exactement n des 20 essais aient réussi? Existe-t-il une meilleure façon de calculer ces probabilités plutôt que de simplement résumer les...

probability distributions bernoulli-distribution poisson-binomial

11

Tracer des résultats n'ayant que la moyenne et l'écart-type

J'essaie de visualiser un graphique approprié pour les observations dans ce tableau des moyennes et des écarts-types des scores de rappel: RecallControlMean37SD8ExperimentalMean21SD6ControlExperimentalMeanSDMeanSDRecall378216\begin{array} {c|c c|c c|} & \text{Control} & & \text{Experimental} & \\ &...

data-visualization standard-deviation mean descriptive-statistics barplot

11

Mesurer l'uniformité d'une distribution en semaine

J'ai un problème similaire à la question posée ici: Comment mesurer la non-uniformité d'une distribution? J'ai un ensemble de distributions de probabilité sur les jours de la semaine. Je veux mesurer la proximité de chaque distribution (1 / 7,1 / 7, ..., 1/7). Pour le moment, j'utilise une réponse...

probability distributions random-variable uniform measurement

11

Quels sont les avantages et les inconvénients de l'application d'informations mutuelles ponctuelles sur une matrice de cooccurrence de mots avant la SVD?

Une façon de générer des incorporations de mots est la suivante ( miroir ): Obtenez un corpus, par exemple: "J'aime voler. J'aime la PNL. J'aime le deep learning." Construisez le mot matrice de cooccurrence à partir de lui: Effectuez SVD sur XXX et conservez les kkk premières colonnes de U. U1 : |...

natural-language svd mutual-information word-embeddings language-models

11

Comment interpréter le coefficient de deuxième étape dans la régression des variables instrumentales avec un instrument binaire et une variable endogène binaire?

(message assez long, désolé. Il comprend de nombreuses informations générales, alors n'hésitez pas à passer à la question en bas.) Intro: Je travaille sur un projet où nous essayons d'identifier l'effet d'une variable endogène binaire, , sur un résultat continu, . Nous avons mis au point un...

econometrics interpretation binary-data instrumental-variables

11

Pourquoi la régression des crêtes ne peut-elle pas offrir une meilleure interprétabilité que LASSO?

J'ai déjà une idée des avantages et des inconvénients de la régression des crêtes et du LASSO. Pour le LASSO, le terme de pénalité L1 donnera un vecteur de coefficient clairsemé, qui peut être considéré comme une méthode de sélection de caractéristiques. Cependant, il existe certaines limitations...

feature-selection lasso regularization ridge-regression elastic-net

11

Approximation

Je lisais nonchalamment un article (en économie) qui avait l'approximation suivante pour :log(E(X))log⁡(E(X))\log(E(X)) ,log(E(X))≈E(log(X))+0.5var(log(X))log⁡(E(X))≈E(log⁡(X))+0.5var(log⁡(X))\log(E(X)) \approx E(\log(X))+0.5 \mathrm{var}(\log(X)) ce que l'auteur dit est exact si X est log-normal...

lognormal approximation taylor-series

11

Latin Hypercube Sampling Asymptotics

J'essaie de construire une preuve d'un problème sur lequel je travaille et l'une des hypothèses que je fais est que l'ensemble des points à partir desquels je suis échantillonné est dense sur tout l'espace. En pratique, j'utilise l'échantillonnage d'hypercube latin pour obtenir mes points sur tout...

sampling asymptotics latin-square latin-hypercube

11

Comment les filtres et les cartes d'activation sont-ils connectés dans les réseaux de neurones convolutifs?

Comment les cartes d'activation d'une couche donnée sont-elles connectées aux filtres de cette couche? Je ne demande pas comment faire une opération convolutionnelle entre le filtre et la carte d'activation, je demande le type de connectivité de ces deux-là. Par exemple, supposons que vous...

machine-learning deep-learning conv-neural-network

11

Quelle est l'autocorrélation pour une marche aléatoire?

On dirait que c'est vraiment élevé, mais c'est contre-intuitif pour moi. Quelqu'un peut-il expliquer? Je suis très confus par cette question et apprécierais une explication détaillée et perspicace. Merci beaucoup

autocorrelation random-walk

11

Les interactions ne sont-elles utiles que dans le contexte de la régression?

J'ai toujours lu le terme interaction dans le contexte de la régression. Devrions-nous également considérer les interactions avec différents modèles, par exemple knn ou svm? S'il y a , ou même plus de fonctionnalités et disons observations quelle est la manière habituelle de trouver des...

machine-learning interaction terminology

11

Comprendre le conjugué bêta avant dans l'inférence bayésienne sur une fréquence

Voici un extrait de l' introduction de Bolstad aux statistiques bayésiennes . Pour tous les experts, cela pourrait être trivial, mais je ne comprends pas comment l'auteur conclut que nous n'avons pas à faire d'intégration pour calculer la probabilité postérieure d'une certaine valeur de . Je...

distributions bayesian beta-distribution conjugate-prior

11

Estimateur non biaisé pour le modèle AR (

Considérons un modèle AR ( ) (en supposant une moyenne nulle pour la simplicité):ppp Xt= φ1Xt - 1+ … + ΦpXt - p+ εtXt=φ1Xt-1+…+φpXt-p+εt x_t = \varphi_1 x_{t-1} + \dotsc + \varphi_p x_{t-p} + \varepsilon_t L'estimateur OLS (équivalent à l' estimateur du maximum de vraisemblance conditionnel ) pour...

time-series maximum-likelihood autoregressive unbiased-estimator

11

Chaque matrice de corrélation positive est-elle définie?

Je parle ici de matrices de corrélations de Pearson. J'ai souvent entendu dire que toutes les matrices de corrélation doivent être semi-définies positives. Ma compréhension est que les matrices définies positives doivent avoir des valeurs propres , tandis que les matrices semi-définies positives...

covariance-matrix eigenvalues correlation-matrix

11

Quand la distribution d'échantillonnage fréquentiste ne peut-elle pas être interprétée comme postérieure bayésienne dans les paramètres de régression?

Mes vraies questions se trouvent dans les deux derniers paragraphes, mais pour les motiver: Si j'essaie d'estimer la moyenne d'une variable aléatoire qui suit une distribution normale avec une variance connue, j'ai lu que le fait de mettre un uniforme avant sur la moyenne donne une distribution...

bayesian maximum-likelihood posterior frequentist