Statistiques et Big Data

10
Quelle est la probabilité que n personnes d'une liste de m personnes soient dans une sélection aléatoire de x personnes d'une liste de y personnes?

Si je sélectionne 232 personnes dans un groupe de 363 personnes sans remplacement, quelle est la probabilité que 2 personnes sur une liste de 12 personnes spécifiques figurent dans cette sélection? Il s'agit d'un tirage au sort pour une course ultra où il y avait 363 participants pour 232 places....

10
Comment simuler des résultats multivariés dans R?

La plupart des situations, nous ne traitons qu'avec une variable de résultat / réponse telle que . Cependant, dans certains scénarios, en particulier dans les données cliniques, les variables de résultat peuvent être de grande dimension / multivariées. Tels que , où contient les , et et ces...

10
Comment regrouper des chaînes par thèmes communs?

J'essaie de regrouper, par exemple, des chaînes de programmation avec d'autres chaînes de programmation, des chaînes de physique avec d'autres chaînes de physique, etc., pour un large éventail de sujets. Malgré l'aspect linguistique théorique flagrant du problème, je cherche à le faire en utilisant...

10
Concernant l'utilisation du modèle bigramme (N-gramme) pour créer un vecteur d'entités pour un document texte

Une approche traditionnelle de la construction d'entités pour l'exploration de texte est une approche par sac de mots, et peut être améliorée à l'aide de tf-idf pour configurer le vecteur d'entités caractérisant un document texte donné. À l'heure actuelle, j'essaie d'utiliser un modèle de langage...