Statistiques et Big Data

11
Quels sont les avantages et les inconvénients de l'application d'informations mutuelles ponctuelles sur une matrice de cooccurrence de mots avant la SVD?

Une façon de générer des incorporations de mots est la suivante ( miroir ): Obtenez un corpus, par exemple: "J'aime voler. J'aime la PNL. J'aime le deep learning." Construisez le mot matrice de cooccurrence à partir de lui: Effectuez SVD sur XXX et conservez les kkk premières colonnes de U. U1 : |...

11
Comment interpréter le coefficient de deuxième étape dans la régression des variables instrumentales avec un instrument binaire et une variable endogène binaire?

(message assez long, désolé. Il comprend de nombreuses informations générales, alors n'hésitez pas à passer à la question en bas.) Intro: Je travaille sur un projet où nous essayons d'identifier l'effet d'une variable endogène binaire, , sur un résultat continu, . Nous avons mis au point un...

11
Approximation

Je lisais nonchalamment un article (en économie) qui avait l'approximation suivante pour :log(E(X))log⁡(E(X))\log(E(X)) ,log(E(X))≈E(log(X))+0.5var(log(X))log⁡(E(X))≈E(log⁡(X))+0.5var(log⁡(X))\log(E(X)) \approx E(\log(X))+0.5 \mathrm{var}(\log(X)) ce que l'auteur dit est exact si X est log-normal...

11
Quand la distribution d'échantillonnage fréquentiste ne peut-elle pas être interprétée comme postérieure bayésienne dans les paramètres de régression?

Mes vraies questions se trouvent dans les deux derniers paragraphes, mais pour les motiver: Si j'essaie d'estimer la moyenne d'une variable aléatoire qui suit une distribution normale avec une variance connue, j'ai lu que le fait de mettre un uniforme avant sur la moyenne donne une distribution...