Statistiques et Big Data

11

Ajustement gaussien multivarié robuste en R

J'ai besoin d'adapter une distribution gaussienne généralisée à un nuage de points à 7 dim contenant un nombre assez important de valeurs aberrantes avec un effet de levier élevé. Connaissez-vous un bon package R pour ce

r distributions normal-distribution robust

11

Comment dessiner un tracé éboulis en python? [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé l'année dernière . J'utilise la décomposition vectorielle singulière sur une matrice...

data-visualization python svd

11

Y a-t-il des cas où il n'y a pas de k optimal dans k-moyennes?

Cela me vient à l'esprit depuis au moins quelques heures. J'essayais de trouver un k optimal pour la sortie de l'algorithme k-means (avec une métrique de similitude cosinus ), donc j'ai fini par tracer la distorsion en fonction du nombre de grappes. Mon ensemble de données est une collection de 800...

machine-learning clustering k-means

11

Déterminer une discrétisation optimale des données d'une distribution continue

Supposons que vous ayez un ensemble de données d'une distribution continue avec une densité supportée sur qui n'est pas connue, mais est assez grand donc une densité de noyau (par exemple) l'estimation, , est assez précise. Pour une application particulière, je dois transformer les données...

continuous-data discrete-data

11

Problème lors de la conversion d'un facteur en une variable numérique dans R [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 7 ans . J'aimerais convertir une variable de facteur en une variable numérique...

r data-transformation

11

Regroupement SOM pour les variables nominales / circulaires

Je me demande simplement si quelqu'un est familier avec le regroupement des entrées nominales. J'ai regardé SOM comme une solution mais apparemment, cela ne fonctionne qu'avec des fonctionnalités numériques. Existe-t-il des extensions pour les fonctionnalités catégorielles? Plus précisément, je me...

clustering unsupervised-learning self-organizing-maps

11

Comment trouver des regroupements (trajectoires) parmi les données longitudinales?

Le contexte Je veux planter le décor avant d'étendre quelque peu la question. J'ai des données longitudinales, des mesures sont prises sur des sujets environ tous les 3 mois, le résultat principal est numérique (comme en continu à 1dp) dans la plage de 5 à 14, la masse (de tous les points de...

clustering panel-data

11

La référence pour la somme et la différence des variables hautement corrélées étant presque non corrélée

Dans un article que j'ai écrit, je modélise les variables aléatoires et plutôt que et pour éliminer efficacement les problèmes qui surviennent lorsque et sont fortement corrélés et ont une variance égale (comme ils le sont dans mon application). Les arbitres veulent que je donne une référence. Je...

correlation multicollinearity

11

Alternative pour bloquer le bootstrap pour les séries temporelles multivariées

J'utilise actuellement le processus suivant pour démarrer une série temporelle multivariée dans R: Déterminer les tailles de bloc - exécutez la fonction b.stardans le nppackage qui produit une taille de bloc pour chaque série Sélectionnez la taille de bloc maximale Exécuter tsbootsur n'importe...

r time-series multivariate-analysis bootstrap

11

Puis-je utiliser «œil gauche» et «œil droit» dans mon échantillon comme deux sujets différents?

Mes données sont les suivantes. J'ai deux groupes de patients. Les patients de chaque groupe ont subi un type différent de chirurgie oculaire. 5 variables ont été mesurées sur les patients de chaque groupe. Je veux comparer ces variables entre les deux groupes en utilisant un test de permutation ou...

sampling

11

Ordonner les statistiques (par exemple, au minimum) d'une collection infinie de variables khi-deux?

C'est ma première fois ici, alors faites-moi savoir si je peux clarifier ma question de quelque manière que ce soit (y compris le formatage, les balises, etc.). (Et j'espère pouvoir éditer plus tard!) J'ai essayé de trouver des références, et j'ai essayé de me résoudre en utilisant l'induction,...

distributions chi-squared exponential order-statistics minimum

11

Concevoir un test pour un médium qui dit qu'il peut influencer les jets de dés

Disons que j'ai un ami (appelons-le "George") qui dit qu'il peut contrôler le lancer de dés en utilisant son esprit (c'est-à-dire, rendre les dés plus susceptibles de tomber sur un nombre spécifique auquel il pense). Comment puis-je concevoir un test scientifiquement rigoureux pour déterminer s'il...

probability experiment-design dice

11

Pertinence du test de classement signé par Wilcoxon

J'ai fouillé un peu dans les archives de Cross Validated et je n'ai pas semblé trouver de réponse à ma question. Ma question est la suivante: Wikipedia donne trois hypothèses qui doivent être vérifiées pour le test de classement signé de Wilcoxon (légèrement modifié pour mes questions): Soit Zi =...

r hypothesis-testing

11

Échantillonnage MCMC de l'espace de l'arbre de décision par rapport à la forêt aléatoire

Une forêt aléatoire est une collection d' arbres de décision formés en sélectionnant de manière aléatoire uniquement certaines fonctionnalités avec lesquelles construire chaque arbre (et parfois en ensachant les données d'entraînement). Apparemment, ils apprennent et se généralisent bien. Quelqu'un...

mcmc monte-carlo random-forest cart

11

Gestion de grands ensembles de données dans R - tutoriels, meilleures pratiques, etc.

Je suis un R noob qui est tenu de faire divers types d'analyses sur de grands ensembles de données dans R. Donc, en regardant autour de ce site et ailleurs, il m'a semblé qu'il y avait beaucoup de problèmes ésotériques et moins connus impliqués ici - comme quel package utiliser quand, quelles...

r large-data

11

Comment effectuer une ANOVA mixte 4 x 4 avec des contrastes entre et au sein des sujets en utilisant R?

Utilisateur débutant de R aux prises avec une ANOVA de mesures répétées. J'ai un ensemble de données qui comprend un facteur entre les sujets avec 4 niveaux (codé dans une seule variable appelée «groupes») et un facteur entre les sujets avec 4 niveaux (codé en quatre variables distinctes «DV1»,...

r anova repeated-measures contrasts

11

Convertir le code SAS NLMIXED pour une régression gamma gonflée à zéro en R

J'essaie d'exécuter une régression zéro gonflée pour une variable de réponse continue dans R. Je connais une implémentation gamlss, mais j'aimerais vraiment essayer cet algorithme de Dale McLerran qui est conceptuellement un peu plus simple. Malheureusement, le code est en SAS et je ne sais pas...

r sas gamlss

11

Quelle est la contrepartie bayésienne d'un test t à deux échantillons avec des variances inégales?

Je recherche l'équivalent bayésien du test t à deux échantillons avec des variances inégales (le test de Welch). Je recherche également un test multivarié, comme la statistique T de Hotelling. Références appréciées. Pour le cas multivarié, supposons que nous ayons et , où (resp ) est un raccourci...

correlation bayesian t-test heteroscedasticity

11

Les intervalles de confiance sont-ils des intervalles ouverts ou fermés?

J'ai une question sur les intervalles de confiance. En général, les intervalles de confiance sont-ils ouverts ou fermés?

mathematical-statistics

11

Pourquoi le produit des coefficients de régression bivariés de la ligne sur- et de la ligne sur- est égal au carré de la corrélation?

Il existe un modèle de régression où avec et , qui a un coefficient de corrélation de .Oui= a + b XOui=une+bXY = a + bXa = 1,6une=1,6a = 1.6b = 0,4b=0,4b=0.4r = 0,60302r=0,60302r = 0.60302 Si et sont alors et que l'équation devient où et , elle a également une valeur de .XXXOuiOuiYX= c +...

correlation regression-coefficients