Statistiques et Big Data

29
Comment gérer les données hiérarchiques / imbriquées dans l'apprentissage automatique

Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3),...

29
Intervalle de prédiction de bootstrap

Existe-t-il une technique de bootstrap pour calculer les intervalles de prédiction pour les prédictions ponctuelles obtenues par exemple à partir d'une régression linéaire ou d'une autre méthode de régression (k-plus proche voisin, arbres de régression, etc.)? D'une certaine manière, je pense que...

29
Une méta-analyse d'études qui ne sont pas toutes «statistiquement significatives» peut-elle conduire à une conclusion «significative»?

Une méta-analyse comprend un tas d'études, qui ont toutes rapporté une valeur P supérieure à 0,05. Est-il possible que la méta-analyse globale rapporte une valeur P inférieure à 0,05? Dans quelles circonstances? (Je suis presque sûr que la réponse est oui, mais j'aimerais une référence ou une...

29
Distinguer deux groupes en statistiques et en machine learning: test d'hypothèse vs classification vs clustering

Supposons que j'ai deux groupes de données, étiquetés A et B (contenant chacun par exemple 200 échantillons et 1 fonction), et je veux savoir s'ils sont différents. Je pourrais: a) effectuer un test statistique (par exemple un test t) pour voir s'ils sont statistiquement différents. b) utiliser...

29
Qu'est-ce qu'un collecteur?

Dans les techniques de réduction de dimensionnalité telles que l'analyse en composantes principales, LDA, etc., le terme collecteur est souvent utilisé. Qu'est-ce qu'une variété en termes non techniques? Si un point Xxx appartient à une sphère dont je veux réduire la dimension, et s'il y a un bruit...

29
Quel est l'analyse des séries temporelles?

Quel est l'analyse des séries temporelles? Il existe de nombreuses autres méthodes statistiques, telles que la régression et l'apprentissage automatique, qui ont des cas d'utilisation évidents: la régression peut fournir des informations sur la relation entre deux variables, tandis que...

28
Quels packages R trouvez-vous les plus utiles dans votre travail quotidien?

Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. Fil en double: je viens d'installer la dernière version de R. Quels packages dois-je obtenir? Quels...

28
Vidéos statistiques / probabilités pour débutants

Il y avait déjà une demande de vidéos de statistiques mathématiques , mais elle demandait explicitement aux des vidéos qui fournissent une présentation mathématique rigoureuse des statistiques. c'est-à-dire des vidéos qui pourraient accompagner un cours qui utilisent un manuel mentionné dans cette...

28
Quelles sont les alternatives aux axes cassés?

Les utilisateurs sont souvent tentés de casser les valeurs des axes pour présenter des données de différents ordres de grandeur sur le même graphique (voir ici ). Bien que cela puisse être pratique, ce n'est pas toujours la manière préférée d'afficher les données (peut être trompeuse au mieux)....

28
Comment effectuer le test t de Student en ne connaissant que la taille de l'échantillon, la moyenne de l'échantillon et la moyenne de la population?

Le test ttt Student nécessite l'écart type de l'échantillon . Cependant, comment puis-je calculer pour lorsque seules la taille et la moyenne de l'échantillon sont connues?ssssss Par exemple, si la taille de l'échantillon est de et la moyenne de l'échantillon est de , j'essaierai alors de créer une...