Statistiques et Big Data

9
Comment additionner deux variables à différentes échelles?

Si j'ai deux variables suivant deux distributions différentes et ayant des écarts-types différents ... Comment dois-je transformer deux variables pour que lorsque je résume, les deux résultats ne soient pas "induits" par des plus volatils. Par exemple ... La variable A est moins volatile que la...

9
Regroupement avec des mesures de distance asymétriques

Comment regrouper une entité avec une mesure de distance asymétrique? Par exemple, supposons que vous regroupiez un ensemble de données avec des jours de la semaine comme entité - la distance du lundi au vendredi n'est pas la même que la distance du vendredi au lundi. Comment intégrez-vous cela...

9
La distribution d'entropie maximale est-elle cohérente avec les distributions marginales données, la distribution du produit des marginaux?

Il existe généralement de nombreuses distributions conjointes cohérentes avec un ensemble connu de distributions marginales .P(X1=x1,X2=x2,...,Xn=xn)P(X1=x1,X2=x2,...,Xn=xn)P(X_1 = x_1, X_2 = x_2, ..., X_n = x_n)fi(xi)=P(Xi=xi)fi(xi)=P(Xi=xi)f_i(x_i) = P(X_i = x_i) De ces distributions conjointes,...

9
Comment choisir le nombre de scissions dans rpart ()?

Je l' ai utilisé rpart.controlpour minsplit=2, et a obtenu les résultats suivants de la rpart()fonction. Pour éviter de sur-ajuster les données, dois-je utiliser les divisions 3 ou 7? Ne devrais-je pas utiliser le fractionnement 7? S'il vous plaît, faites-moi savoir. Variables réellement utilisées...

9
Comprendre les résultats de la régression des crêtes

Je suis nouveau dans la régression des crêtes. Lorsque j'ai appliqué une régression de crête linéaire, j'ai obtenu les résultats suivants: >myridge = lm.ridge(y ~ ma + sa + lka + cb + ltb , temp, lamda = seq(0,0.1,0.001)) > select(myridge) modified HKB estimator is 0.5010689 modified L-W...

9
Distribution de l'écart type

Cette question concernait la distribution normale, mais je me demande ce que l'on sait de la distribution de l'écart-type d'un échantillon de taille n tiré d'une distribution arbitraire. En particulier, quel est l'écart type de l'écart type? Pour une distribution normale, le sd du sd est . Est-ce...

9
Boxplot pour plusieurs distributions?

J'ai besoin de dessiner 20 distributions dans un seul graphique en R, et cela ne me semble pas bien (encombré) avec boxplot régulier (20 cases) même avec boxwex = 0.3. Pourriez-vous me suggérer comment puis-je tracer une sorte de boxplot en R pour les 20 distributions, avec des points pour la...

9
Régression logistique pondérée par cas

J'examine quelques problèmes de régression logistique. ("régulier" et "conditionnel"). Idéalement, je voudrais pondérer chacun des cas d'entrée afin que le GLM se concentre davantage sur la prédiction correcte des cas à pondération plus élevée au détriment d'une éventuelle mauvaise classification...

9
Conseils généraux sur la modélisation

La formulation d'un modèle mathématique pour un problème est l'un des aspects les plus subjectifs de la statistique, mais aussi l'un des plus importants. Quelles sont les meilleures références traitant de ce sujet crucial mais souvent négligé? Et quel célèbre statisticien a dit quelque chose dans...

9
Test bayésien AB

J'exécute un test AB sur une page qui ne reçoit que 5 000 visites par mois. Il faudrait trop de temps pour atteindre les niveaux de trafic nécessaires pour mesurer une différence de + -1% entre le test et le contrôle. J'ai entendu dire que je peux utiliser les statistiques bayésiennes pour me...